論文の概要: Online Learning from Strategic Human Feedback in LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.16834v1
- Date: Sun, 22 Dec 2024 02:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:54.673749
- Title: Online Learning from Strategic Human Feedback in LLM Fine-Tuning
- Title(参考訳): LLMファインチューニングにおける戦略的フィードバックからのオンライン学習
- Authors: Shugang Hao, Lingjie Duan,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、人間の好みに合わせるために、大規模言語モデル(LLM)を微調整する上で不可欠なステップとなっている。
LLMファインチューニングプロセスにおける戦略的ラベル付け者に対するオンライン学習機構について検討した。
我々は新しい動的ベイズゲームを定式化し、好みのアグリゲーションにおいて人間のラベルの重みを動的に調整する。
- 参考スコア(独自算出の注目度): 16.35495567193046
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has become an essential step in fine-tuning large language models (LLMs) to align them with human preferences. However, human labelers are selfish and have diverse preferences. They may strategically misreport their online feedback to influence the system's aggregation towards their own preferences. Current practice simply averages labelers' feedback per time and fails to identify the most accurate human labeler, leading to linear regret $\mathcal{O}(T)$ for $T$ time slots. To our best knowledge, we are the first to study online learning mechanisms against strategic human labelers in the LLM fine-tuning process. We formulate a new dynamic Bayesian game and dynamically adjust human labelers' weights in the preference aggregation, ensuring their truthful feedback and sublinear regret $\mathcal{O}(T^{1/2})$. Simulation results demonstrate our mechanism's great advantages over the existing benchmark schemes.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、人間の好みに合わせるために、大規模言語モデル(LLM)を微調整する上で不可欠なステップとなっている。
しかし、人間のラベルは利己的であり、様々な好みを持っている。
彼らは戦略的に彼らのオンラインフィードバックを誤って報告し、システムのアグリゲーションを自分たちの好みに影響を及ぼすかもしれない。
現在のプラクティスは、単に時間ごとのラベルのフィードバックを平均化し、最も正確な人間のラベルの特定に失敗し、線形後悔の$\mathcal{O}(T)$ for $T$ time slotsに繋がる。
LLMファインチューニングプロセスにおいて、戦略的ラベル付け者に対してオンライン学習メカニズムを初めて研究する。
我々は新しい動的ベイズゲームを定式化し、好みのアグリゲーションにおいて人間のラベルの重みを動的に調整し、真にフィードバックし、サブ線形後悔を$\mathcal{O}(T^{1/2})$とする。
シミュレーションの結果、既存のベンチマーク方式よりも、我々のメカニズムの優れた利点が示される。
関連論文リスト
- Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。