論文の概要: Sample Efficient Preference Alignment in LLMs via Active Exploration
- arxiv url: http://arxiv.org/abs/2312.00267v3
- Date: Thu, 20 Mar 2025 14:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 13:17:53.93873
- Title: Sample Efficient Preference Alignment in LLMs via Active Exploration
- Title(参考訳): 能動探査によるLLMの標本選好アライメント
- Authors: Viraj Mehta, Syrine Belakaria, Vikramjeet Das, Ojash Neopane, Yijia Dai, Ilija Bogunovic, Barbara Engelhardt, Stefano Ermon, Jeff Schneider, Willie Neiswanger,
- Abstract要約: 良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 63.84454768573154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based feedback is important for many applications in machine learning where evaluation of a reward function is not feasible. Notable recent examples arise in preference alignment for large language models, including in reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO). For many applications of preference alignment, the cost of acquiring human feedback can be substantial. In this work, we take advantage of the fact that one can often choose contexts at which to obtain human feedback to most efficiently identify a good policy, and formalize the setting as an active contextual dueling bandit problem. We propose an active exploration algorithm to efficiently select the data and provide theoretical proof that it has a polynomial worst-case regret bound. We extend the setting and methodology for practical use in preference alignment of large language models. We provide two extensions, an online and an offline approach. Our method outperforms the baselines with limited samples of human preferences on several language models and four real-world datasets including two new datasets that we contribute to the literature.
- Abstract(参考訳): 予測に基づくフィードバックは、報酬関数の評価が不可能な機械学習において、多くのアプリケーションにとって重要である。
最近の顕著な例は、人間のフィードバックからの強化学習(RLHF)や直接選好最適化(DPO)など、大きな言語モデルの選好アライメントに現れている。
選好アライメントの多くのアプリケーションにとって、人間のフィードバックを得るためのコストは相当なものとなる。
本研究は,人間のフィードバックを得るコンテキストを選択することで,適切な方針を最も効率的に識別し,アクティブなコンテキストデュエルバンディット問題として設定を定式化できるという事実を生かしている。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
我々は,大規模言語モデルの嗜好アライメントにおける実践的利用のための設定と方法論を拡張した。
オンラインとオフラインの2つの拡張を提供しています。
提案手法は,いくつかの言語モデルと,文献に寄与する2つの新しいデータセットを含む4つの実世界のデータセットにおいて,人間の好みの限られたサンプルを用いて,ベースラインよりも優れる。
関連論文リスト
- Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Active Preference-based Learning for Multi-dimensional Personalization [7.349038301460469]
大規模言語モデル(LLM)はタスク間で顕著な汎用性を示しているが、個々の人間の好みに合わせることは依然として困難である。
複数の目的にまたがるユーザの嗜好を推定するためにバイナリフィードバックを用いた能動的嗜好学習フレームワークを提案する。
モデル応答をパーソナライズする上で,言語生成タスクに関する理論的解析と実験を行い,そのフィードバック効率と有効性を示す。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。