論文の概要: Trust, Don't Trust, or Flip: Robust Preference-Based Reinforcement Learning with Multi-Expert Feedback
- arxiv url: http://arxiv.org/abs/2601.18751v1
- Date: Mon, 26 Jan 2026 18:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.006132
- Title: Trust, Don't Trust, or Flip: Robust Preference-Based Reinforcement Learning with Multi-Expert Feedback
- Title(参考訳): 信頼、信頼しない、フリップ:マルチエキスパートフィードバックによるロバストな推論に基づく強化学習
- Authors: Seyed Amir Hosseini, Maryam Abdolali, Amirhosein Tavakkoli, Fardin Ayar, Ehsan Javanmardi, Manabu Tsukada, Mahdi Javanmardi,
- Abstract要約: マルチエキスパートの選好フィードバックから共有報酬モデルと専門家固有の信頼パラメータを共同で学習する統合フレームワークであるTriTrust-PBRLを紹介する。
TTPは最先端のロバスト性を実現し、敵対的腐敗下では概日光性能を維持し、標準のPBRL法は破滅的に失敗する。
- 参考スコア(独自算出の注目度): 2.4352490146713364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (PBRL) offers a promising alternative to explicit reward engineering by learning from pairwise trajectory comparisons. However, real-world preference data often comes from heterogeneous annotators with varying reliability; some accurate, some noisy, and some systematically adversarial. Existing PBRL methods either treat all feedback equally or attempt to filter out unreliable sources, but both approaches fail when faced with adversarial annotators who systematically provide incorrect preferences. We introduce TriTrust-PBRL (TTP), a unified framework that jointly learns a shared reward model and expert-specific trust parameters from multi-expert preference feedback. The key insight is that trust parameters naturally evolve during gradient-based optimization to be positive (trust), near zero (ignore), or negative (flip), enabling the model to automatically invert adversarial preferences and recover useful signal rather than merely discarding corrupted feedback. We provide theoretical analysis establishing identifiability guarantees and detailed gradient analysis that explains how expert separation emerges naturally during training without explicit supervision. Empirically, we evaluate TTP on four diverse domains spanning manipulation tasks (MetaWorld) and locomotion (DM Control) under various corruption scenarios. TTP achieves state-of-the-art robustness, maintaining near-oracle performance under adversarial corruption while standard PBRL methods fail catastrophically. Notably, TTP outperforms existing baselines by successfully learning from mixed expert pools containing both reliable and adversarial annotators, all while requiring no expert features beyond identification indices and integrating seamlessly with existing PBRL pipelines.
- Abstract(参考訳): 嗜好に基づく強化学習(PBRL)は、対軌道比較から学習することで、明示的な報酬工学に代わる有望な代替手段を提供する。
しかし、実世界の嗜好データは、しばしば異なる信頼性を持つ異種アノテータから来る。
既存のPBRL法は、すべてのフィードバックを等しく扱うか、信頼できないソースをフィルタリングしようとするが、どちらのアプローチも、体系的に誤った好みを提供する敵アノテータに直面すると失敗する。
マルチエキスパートの選好フィードバックから共有報酬モデルと専門家固有の信頼パラメータを共同で学習する統合フレームワークであるTriTrust-PBRL(TTP)を紹介する。
重要な洞察は、信頼パラメータが勾配に基づく最適化の間、自然に正(信頼)、近ゼロ(無視)、負(フリップ)となるように進化し、モデルが腐敗したフィードバックを捨てるのではなく、自動的に敵の好みを逆転し、有用な信号を取り戻すことができるということである。
特定可能性保証と詳細な勾配分析を立証する理論解析を行い、専門家の分離が明示的な監督なしに訓練中にどのように自然に現れるかを説明する。
実験により,操作タスク(MetaWorld)と移動制御(DM Control)にまたがる4つの領域におけるTTPの評価を行った。
TTPは最先端のロバスト性を実現し、敵対的腐敗下では概日光性能を維持し、標準のPBRL法は破滅的に失敗する。
特にTTPは、信頼性のあるアノテータと敵対的なアノテータの両方を含む混合専門家プールから学ぶことで、既存のベースラインよりも優れています。
関連論文リスト
- TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models [32.85951917559796]
本稿では, 対向検出を行う軽量な防御フレームワークであるTest-Time Padding (TTP) を提案する。
TTPは最先端のテスト時間防衛を一貫して上回り、クリーンな精度を損なうことなく敵の堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-18T13:34:14Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - GuardFed: A Trustworthy Federated Learning Framework Against Dual-Facet Attacks [56.983319121358555]
フェデレートラーニング(FL)は、プライバシ保護のための協調モデルトレーニングを可能にするが、敵の行動に弱いままである。
本稿では,予測精度とグループフェアネスを同時に損なう新たな脅威モデルであるデュアル顔攻撃(DFA)を紹介する。
本稿では,少量のクリーンサーバデータを用いて,公正な参照モデルを維持する自己適応型防衛フレームワークであるGuardFedを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:02:45Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。