論文の概要: Sample Efficient Preference Alignment in LLMs via Active Exploration
- arxiv url: http://arxiv.org/abs/2312.00267v3
- Date: Thu, 20 Mar 2025 14:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 12:14:45.019969
- Title: Sample Efficient Preference Alignment in LLMs via Active Exploration
- Title(参考訳): 能動探査によるLLMの標本選好アライメント
- Authors: Viraj Mehta, Syrine Belakaria, Vikramjeet Das, Ojash Neopane, Yijia Dai, Ilija Bogunovic, Barbara Engelhardt, Stefano Ermon, Jeff Schneider, Willie Neiswanger,
- Abstract要約: 良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 63.84454768573154
- License:
- Abstract: Preference-based feedback is important for many applications in machine learning where evaluation of a reward function is not feasible. Notable recent examples arise in preference alignment for large language models, including in reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). For many applications of preference alignment, the cost of acquiring human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback to most efficiently identify a good policy, and formalize the setting as an active contextual dueling bandit problem. We propose an active exploration algorithm to efficiently select the data and provide theoretical proof that it has a polynomial worst-case regret bound. We extend the setting and methodology for practical use in preference alignment of large language models. We provide two extensions, an online and an offline approach. Our method outperforms the baselines with limited samples of human preferences on several language models and four real-world datasets including two new datasets that we contribute to the literature.
- Abstract(参考訳): 予測に基づくフィードバックは、報酬関数の評価が不可能な機械学習において、多くのアプリケーションにとって重要である。
最近の顕著な例は、人間のフィードバックからの強化学習(RLHF)や直接選好最適化(DPO)など、大きな言語モデルの選好アライメントに現れている。
選好アライメントの多くのアプリケーションにとって、人間のフィードバックを得るためのコストは相当なものとなる。
本研究は,人間のフィードバックを得るコンテキストを選択することで,適切な方針を最も効率的に識別し,アクティブなコンテキストデュエルバンディット問題として設定を定式化できるという事実を生かしている。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
我々は,大規模言語モデルの嗜好アライメントにおける実践的利用のための設定と方法論を拡張した。
オンラインとオフラインの2つの拡張を提供しています。
提案手法は,いくつかの言語モデルと,文献に寄与する2つの新しいデータセットを含む4つの実世界のデータセットにおいて,人間の好みの限られたサンプルを用いて,ベースラインよりも優れる。
関連論文リスト
- Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback [12.373566593905792]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の嗜好を整合させる基盤となっている。
我々は、文脈情報を統合した低ランク文脈RLHFフレームワークを提案し、異種フィードバックをより良くモデル化する。
提案手法は,ユーザコンテキストと問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ/問合せ-問合せ-問合せ-問合せ-問合せ間の相互作用の,本質的に低ランクな構造を利用した文脈選好モデルに基づく。
論文 参考訳(メタデータ) (2024-12-27T04:02:46Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。