論文の概要: Doubly Robust Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.01183v1
- Date: Sun, 01 Jun 2025 21:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.978786
- Title: Doubly Robust Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルのための二重ロバストアライメント
- Authors: Erhan Xu, Kai Ye, Hongyi Zhou, Luhan Zhu, Francesco Quinzan, Chengchun Shi,
- Abstract要約: 本稿では,人からのフィードバックから,大規模言語モデルと人間の嗜好を整合させる強化学習について検討する。
本稿では、優先モデルと参照ポリシーのどちらが正しく指定された場合でも、一貫性が保たれる2つの頑健な選好最適化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.092889408835656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper studies reinforcement learning from human feedback (RLHF) for aligning large language models with human preferences. While RLHF has demonstrated promising results, many algorithms are highly sensitive to misspecifications in the underlying preference model (e.g., the Bradley-Terry model), the reference policy, or the reward function, resulting in undesirable fine-tuning. To address model misspecification, we propose a doubly robust preference optimization algorithm that remains consistent when either the preference model or the reference policy is correctly specified (without requiring both). Our proposal demonstrates superior and more robust performance than state-of-the-art algorithms, both in theory and in practice. The code is available at https://github.com/DRPO4LLM/DRPO4LLM
- Abstract(参考訳): 本稿では,人間からのフィードバック(RLHF)から強化学習を行い,大規模言語モデルと人間の嗜好の整合性について検討する。
RLHFは有望な結果を示したが、多くのアルゴリズムは、基礎となる選好モデル(例えばブラッドリー・テリーモデル)、参照ポリシー、報酬関数の誤用に非常に敏感であり、望ましくない微調整をもたらす。
モデル不特定性に対処するために、選好モデルと参照ポリシーのどちらかが正しく指定された場合(両方を必要とせずに)、整合性を維持した2つの頑健な選好最適化アルゴリズムを提案する。
提案手法は,理論および実運用において,最先端のアルゴリズムよりも優れた,より堅牢な性能を示す。
コードはhttps://github.com/DRPO4LLM/DRPO4LLMで入手できる。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。