論文の概要: ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning
- arxiv url: http://arxiv.org/abs/2512.25023v1
- Date: Wed, 31 Dec 2025 18:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.740964
- Title: ResponseRank: Data-Efficient Reward Modeling through Preference Strength Learning
- Title(参考訳): ResponseRank: 優先度強度学習によるデータ効率の良いリワードモデリング
- Authors: Timo Kaufmann, Yannick Metz, Daniel Keim, Eyke Hüllermeier,
- Abstract要約: 本稿では,雑音強度信号から学習する課題に対処するResponseRankを提案する。
提案手法では, プロキシ信号の相対的な差を利用して, 推定された選好強度によって, ペア比較に対する応答のランク付けを行う。
提案手法は,(1) 局所的に有効な相対的強度信号を活用することによって,好みの強度を強く学習する手法であるResponseRank,(2) 多様なタスクにおけるサンプル効率の向上と堅牢性の実証的証拠である(3) Pearson Distance correlation (PDC) の3つである。
- 参考スコア(独自算出の注目度): 26.19338354679139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary choices, as often used for reinforcement learning from human feedback (RLHF), convey only the direction of a preference. A person may choose apples over oranges and bananas over grapes, but which preference is stronger? Strength is crucial for decision-making under uncertainty and generalization of preference models, but hard to measure reliably. Metadata such as response times and inter-annotator agreement can serve as proxies for strength, but are often noisy and confounded. We propose ResponseRank to address the challenge of learning from noisy strength signals. Our method uses relative differences in proxy signals to rank responses to pairwise comparisons by their inferred preference strength. To control for systemic variation, we compare signals only locally within carefully constructed strata. This enables robust learning of utility differences consistent with strength-derived rankings while making minimal assumptions about the strength signal. Our contributions are threefold: (1) ResponseRank, a novel method that robustly learns preference strength by leveraging locally valid relative strength signals; (2) empirical evidence of improved sample efficiency and robustness across diverse tasks: synthetic preference learning (with simulated response times), language modeling (with annotator agreement), and RL control tasks (with simulated episode returns); and (3) the Pearson Distance Correlation (PDC), a novel metric that isolates cardinal utility learning from ordinal accuracy.
- Abstract(参考訳): バイナリ選択は、人間のフィードバック(RLHF)からの強化学習によく使用されるが、好みの方向のみを伝達する。
人はブドウよりもオレンジやバナナよりもリンゴを選ぶかもしれませんが、どの好みが強くなっていますか?
不確実性や選好モデルの一般化の下での意思決定には強度が不可欠だが、確実な測定は困難である。
応答時間やアノテータ間の合意のようなメタデータは、強度のプロキシとして機能するが、しばしば騒々しく、確立される。
本稿では,雑音強度信号から学習する課題に対処するResponseRankを提案する。
提案手法では, プロキシ信号の相対的な差を利用して, 推定された選好強度によって, ペア比較に対する応答のランク付けを行う。
システム的変動を制御するため、慎重に構築された層内の信号のみを局所的に比較する。
これにより、強度信号について最小限の仮定をしながら、強度由来のランキングと整合した実用性差の堅牢な学習が可能になる。
提案手法は,(1) 局所的に有効な相対強度信号を活用することにより,嗜好強度を強く学習する手法であるResponseRank,(2) 合成選好学習(模擬応答時間付き),言語モデリング(アノテーション契約付き),およびRL制御タスク(擬似エピソードリターン付き),(3) ピアソン距離相関(PDC)の3つである。
関連論文リスト
- Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Enhancing Preference-based Linear Bandits via Human Response Time [25.92686846689662]
対話的嗜好学習システムは、クエリを選択肢のペアとして提示し、バイナリ選択を収集することによって、人間の嗜好を推測する。
本研究では,選択時間と応答時間を組み合わせて人間のユーティリティ関数を推定する手法を提案する。
固定予算ベストアーム識別のための選好ベース線形バンドレットにこの推定器を組み込む。
論文 参考訳(メタデータ) (2024-09-09T17:02:47Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。