論文の概要: Direct Advantage Regression: Aligning LLMs with Online AI Reward
- arxiv url: http://arxiv.org/abs/2504.14177v1
- Date: Sat, 19 Apr 2025 04:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:25:55.283069
- Title: Direct Advantage Regression: Aligning LLMs with Online AI Reward
- Title(参考訳): 直接的なアドバンテージ回帰 - オンラインAIリワードによるLLMの調整
- Authors: Li He, He Zhao, Stephen Wan, Dadong Wang, Lina Yao, Tongliang Liu,
- Abstract要約: オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する
我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。
我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
- 参考スコア(独自算出の注目度): 59.78549819431632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online AI Feedback (OAIF) presents a promising alternative to Reinforcement Learning from Human Feedback (RLHF) by utilizing online AI preference in aligning language models (LLMs). However, the straightforward replacement of humans with AI deprives LLMs from learning more fine-grained AI supervision beyond binary signals. In this paper, we propose Direct Advantage Regression (DAR), a simple alignment algorithm using online AI reward to optimize policy improvement through weighted supervised fine-tuning. As an RL-free approach, DAR maintains theoretical consistency with online RLHF pipelines while significantly reducing implementation complexity and improving learning efficiency. Our empirical results underscore that AI reward is a better form of AI supervision consistently achieving higher human-AI agreement as opposed to AI preference. Additionally, evaluations using GPT-4-Turbo and MT-bench show that DAR outperforms both OAIF and online RLHF baselines.
- Abstract(参考訳): オンラインAIフィードバック(OAIF)は、言語モデル(LLM)の調整において、オンラインAIの好みを活用することで、人間フィードバックからの強化学習(RLHF)に代わる有望な代替手段を提供する。
しかし、人間をAIで簡単に置き換えることで、LLMはバイナリ信号以外のよりきめ細かなAIの監督を学べなくなる。
本稿では、オンラインAI報酬を用いた簡単なアライメントアルゴリズムであるDirect Advantage Regression (DAR)を提案する。
RLフリーアプローチとして、DARはオンラインRLHFパイプラインとの理論的整合性を維持しながら、実装の複雑さを著しく低減し、学習効率を向上させる。
我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
さらに, GPT-4-Turbo と MT-bench を用いて評価したところ, DAR は OAIF とオンライン RLHF のベースラインに優れていた。
関連論文リスト
- REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
LLMのためのレスポンス埋め込みベースのアライメントは、高品質なトレーニングデータセットを構築するための戦略である。
異なる応答対を選択することで、LLMの直接アライメントが向上し、継承されたラベリングエラーを低減できることを示す。
その結果,異なるペアにフォーカスすることでラベルエラーを低減し,LCMアライメントの効率を向上し,アノテータの作業の最大65%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - AI Alignment and Social Choice: Fundamental Limitations and Policy
Implications [0.0]
人間のフィードバックによる強化学習(RLHF)がAIアライメントの鍵となるフレームワークとして登場した。
本稿では,民主的規範を尊重するRLHFシステム構築における具体的な課題について考察する。
我々は、AIエージェントをすべての個人の価値観と整合させることが、常に個人のプライベートな倫理的嗜好に反することを示す。
論文 参考訳(メタデータ) (2023-10-24T17:59:04Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback [5.3113139864044046]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RLAIFは、既製のLLMが生成した好みに基づいて報酬モデル(RM)を訓練する有望な代替手段を提供する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Constitutional AI: Harmlessness from AI Feedback [19.964791766072132]
我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-12-15T06:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。