論文の概要: Causally Robust Reward Learning from Reason-Augmented Preference Feedback
- arxiv url: http://arxiv.org/abs/2603.04861v1
- Date: Thu, 05 Mar 2026 06:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.10171
- Title: Causally Robust Reward Learning from Reason-Augmented Preference Feedback
- Title(参考訳): Reason-Augmented Preference Feedback を用いた因果的ロバスト・リワード学習
- Authors: Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem Bıyık,
- Abstract要約: ReCouPLeは、自然言語の合理性を利用して、欠落した因果信号を提供する軽量フレームワークである。
私たちの学習した報酬モデルは、明確な理由に基づいて好みを定め、ユーザの意図に合うようにし、刺激的な機能を超えて一般化することができます。
- 参考スコア(独自算出の注目度): 4.170114609601759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reward learning is widely used for shaping agent behavior to match a user's preference, yet its sparse binary feedback makes it especially vulnerable to causal confusion. The learned reward often latches onto spurious features that merely co-occur with preferred trajectories during training, collapsing when those correlations disappear or reverse at test time. We introduce ReCouPLe, a lightweight framework that uses natural language rationales to provide the missing causal signal. Each rationale is treated as a guiding projection axis in an embedding space, training the model to score trajectories based on features aligned with that axis while de-emphasizing context that is unrelated to the stated reason. Because the same rationales (e.g., "avoids collisions", "completes the task faster") can appear across multiple tasks, ReCouPLe naturally reuses the same causal direction whenever tasks share semantics, and transfers preference knowledge to novel tasks without extra data or language-model fine-tuning. Our learned reward model can ground preferences on the articulated reason, aligning better with user intent and generalizing beyond spurious features. ReCouPLe outperforms baselines by up to 1.5x in reward accuracy under distribution shifts, and 2x in downstream policy performance in novel tasks. We have released our code at https://github.com/mj-hwang/ReCouPLe
- Abstract(参考訳): 嗜好に基づく報酬学習は、ユーザの嗜好に合うようにエージェントの振舞いを形作るために広く用いられているが、その疎いバイナリフィードバックは、因果的混乱に特に脆弱である。
学習された報酬は、トレーニング中に望ましい軌道と共起するだけで、テスト時に相関関係が消えたり逆になったりすると崩壊する、急激な特徴に陥ることが多い。
ReCouPLeは、自然言語の合理性を利用して、欠落した因果信号を提供する軽量フレームワークである。
それぞれの理性は埋め込み空間における誘導射影軸として扱われ、モデルにその軸に整合した特徴に基づいて軌道のスコアを訓練するが、その理由とは無関係な文脈は強調しない。
同じ合理性(例えば「衝突」や「タスクの完了」など)は複数のタスクにまたがって現れるため、ReCouPLeはタスクがセマンティクスを共有するたびに同じ因果方向を自然に再利用し、余分なデータや言語モデルの微調整なしに好みの知識を新しいタスクに転送する。
私たちの学習した報酬モデルは、明確な理由に基づいて好みを定め、ユーザの意図に合うようにし、刺激的な機能を超えて一般化することができます。
ReCouPLeは、分散シフト時の報酬精度が1.5倍、新しいタスクにおける下流ポリシー性能が2倍に向上する。
私たちはhttps://github.com/mj-hwang/ReCouPLeでコードを公開しました。
関連論文リスト
- A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:23:54Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning [3.513501558121131]
リアルタイムスカラーフィードバックを優先データに変換するフレームワークであるPref-GUIDEを提案する。
Pref-GUIDE 個人は、短いウィンドウ内でのエージェントの挙動を比較することで時間的不整合を緩和する。
Pref-GUIDE Votingは、ユーザの集団間で報酬モデルを集約し、コンセンサス優先を形成することにより、ロバスト性を高める。
論文 参考訳(メタデータ) (2025-08-10T00:18:44Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文 参考訳(メタデータ) (2023-10-03T21:58:24Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Reinforcement Based Learning on Classification Task Could Yield Better
Generalization and Adversarial Accuracy [0.0]
画像分類タスクを用いて深層学習モデルを訓練する新しい手法を提案する。
強化学習におけるバニラポリシー勾配法に類似した報酬に基づく最適化関数を用いる。
論文 参考訳(メタデータ) (2020-12-08T11:03:17Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。