論文の概要: The Trajectory Alignment Coefficient in Two Acts: From Reward Tuning to Reward Learning
- arxiv url: http://arxiv.org/abs/2601.16906v1
- Date: Fri, 23 Jan 2026 17:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.777184
- Title: The Trajectory Alignment Coefficient in Two Acts: From Reward Tuning to Reward Learning
- Title(参考訳): 2つの行為における軌道アライメント係数:リワードチューニングからリワード学習へ
- Authors: Calarina Muslimani, Yunshu Du, Kenta Kawamoto, Kaushik Subramanian, Peter Stone, Peter Wurman,
- Abstract要約: 軌道アライメント係数(英: Trajectory Alignment Coefficient、TAC)は、報酬関数の誘導された嗜好がドメインの専門家のものとどの程度近いかを評価する計量である。
本論文では,人選好データから報酬モデルを学習するための損失関数として使用できるTACの微分可能な近似であるSoft-TACを提案する。
- 参考スコア(独自算出の注目度): 15.737840541323719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of reinforcement learning (RL) is fundamentally tied to having a reward function that accurately reflects the task objective. Yet, designing reward functions is notoriously time-consuming and prone to misspecification. To address this issue, our first goal is to understand how to support RL practitioners in specifying appropriate weights for a reward function. We leverage the Trajectory Alignment Coefficient (TAC), a metric that evaluates how closely a reward function's induced preferences match those of a domain expert. To evaluate whether TAC provides effective support in practice, we conducted a human-subject study in which RL practitioners tuned reward weights for Lunar Lander. We found that providing TAC during reward tuning led participants to produce more performant reward functions and report lower cognitive workload relative to standard tuning without TAC. However, the study also underscored that manual reward design, even with TAC, remains labor-intensive. This limitation motivated our second goal: to learn a reward model that maximizes TAC directly. Specifically, we propose Soft-TAC, a differentiable approximation of TAC that can be used as a loss function to train reward models from human preference data. Validated in the racing simulator Gran Turismo 7, reward models trained using Soft-TAC successfully captured preference-specific objectives, resulting in policies with qualitatively more distinct behaviors than models trained with standard Cross-Entropy loss. This work demonstrates that TAC can serve as both a practical tool for guiding reward tuning and a reward learning objective in complex domains.
- Abstract(参考訳): 強化学習(RL)の成功は、基本的にタスク目標を正確に反映する報酬関数を持つことに結びついている。
しかし、報酬関数の設計は時間を要することで知られており、不特定がちである。
この問題に対処する第一のゴールは、報酬関数に適切な重みを指定する際に、RL実践者を支援する方法を理解することです。
我々は、報酬関数の誘導された嗜好がドメインの専門家のものとどの程度密に一致しているかを評価する指標であるTorjectory Alignment Coefficient(TAC)を利用する。
実践においてTACが効果的な支援を提供するかどうかを評価するため,RL実践者がLunar Landerの報酬重量を調整した人体実験を行った。
その結果、報酬チューニング中にTACを提供することで、参加者はよりパフォーマンスの高い報酬関数を作成でき、TACを使わずに標準チューニングと比較して認知負荷が低いことが判明した。
しかし、この研究は、TACでさえ手動報酬の設計が労働集約的であることも強調した。
この制限は、TACを直接最大化する報酬モデルを学ぶという2つ目の目標を動機付けました。
具体的には、人間の嗜好データから報酬モデルをトレーニングするための損失関数として使用できるTACの微分可能な近似であるSoft-TACを提案する。
レースシミュレータGran Turismo 7で検証された報酬モデルでは、Soft-TACを使用してトレーニングされた報酬モデルは、好み固有の目的をうまく捉え、その結果、標準的なクロスエントロピー損失でトレーニングされたモデルよりも質的に明確な振る舞いを持つポリシーが得られた。
この研究は、TACが複雑な領域における報酬チューニングと報酬学習の目的を導くための実用的なツールであることを示す。
関連論文リスト
- A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning [0.8709142317087694]
本稿では,小言語モデルに基づくより洗練された履歴書評価モデルを構築するための2段階のプロセスについて述べる。
このモデルはカスタム報酬関数上でGRPOを使用して微調整される。
その結果, GRPO分析モデルでは実世界の有効性が顕著に示され, 最終精度は91%であった。
論文 参考訳(メタデータ) (2025-11-20T06:06:30Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Towards Improving Reward Design in RL: A Reward Alignment Metric for RL Practitioners [15.25763345316458]
強化学習エージェントは、彼らが学んだ報酬関数の品質によって、基本的に制限されている。
本稿では, 人的利害関係者の軌道分布ランキングと, 与えられた報酬関数によって誘導されるものとの類似性を定量化するために, トラジェクティブアライメント係数を導入する。
論文 参考訳(メタデータ) (2025-03-08T00:38:17Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。