論文の概要: Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback
- arxiv url: http://arxiv.org/abs/2512.03208v1
- Date: Tue, 02 Dec 2025 20:22:25 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:54.433154
- Title: Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback
- Title(参考訳): 不均一フィードバックによる大規模言語モデル逆学習の不確かさの定量化
- Authors: Pangpang Liu, Junwei Lu, Will Wei Sun,
- Abstract要約: 大規模言語(LLM)の整合に使用される推定モデルと統計的報酬モデルについて検討する。
LLMアライメントの重要な構成要素は、人間のフィードバックからの強化学習である。
- 参考スコア(独自算出の注目度): 8.538830579425147
- License:
- Abstract: We study estimation and statistical inference for reward models used in aligning large language models (LLMs). A key component of LLM alignment is reinforcement learning from human feedback (RLHF), where humans compare pairs of model-generated answers and their preferences are used to train a reward model. However, human feedback is inherently heterogeneous, creating significant challenges for reliable reward learning. To address this, we adopt a heterogeneous preference framework that jointly models the latent reward of answers and human rationality. This leads to a challenging biconvex optimization problem, which we solve via an alternating gradient descent algorithm. We establish theoretical guarantees for the resulting estimator, including its convergence and asymptotic distribution. These results enable the construction of confidence intervals for reward estimates. Leveraging these uncertainty quantification results, we conduct valid statistical comparisons between rewards and incorporate uncertainty into the best-of-$N$ (BoN) policy framework. Extensive simulations demonstrate the effectiveness of our method, and applications to real LLM data highlight the practical value of accounting for uncertainty in reward modeling for LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の整列に使用される報酬モデルの推定と統計的推測について検討した。
LLMアライメントの重要な要素は、人間からのフィードバック(RLHF)からの強化学習である。
しかし、人間からのフィードバックは本質的に異質であり、信頼できる報酬学習のための重要な課題を生み出している。
これを解決するために、我々は、回答の潜在報酬と人間の合理性を共同でモデル化する異種嗜好の枠組みを採用した。
このことは、交互勾配勾配降下アルゴリズムによって解決される双凸最適化問題に繋がる。
我々は、その収束と漸近分布を含む、結果として生じる推定値の理論的保証を確立する。
これらの結果は、報酬推定のための信頼区間の構築を可能にする。
これらの不確実性定量化結果を活用することで、報酬間の統計的比較を有効なものにし、不確実性を最良のN$(BoN)ポリシーフレームワークに組み込む。
LLMアライメントのための報酬モデルにおける不確実性を考慮した会計の実践的価値を明らかにする。
関連論文リスト
- Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [11.31665596884142]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。