論文の概要: Aligning Language Models with Offline Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2308.12050v2
- Date: Sun, 10 Dec 2023 03:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:32:50.266133
- Title: Aligning Language Models with Offline Learning from Human Feedback
- Title(参考訳): 人間のフィードバックからのオフライン学習による言語モデルの調整
- Authors: Jian Hu, Li Tao, June Yang, Chandler Zhou
- Abstract要約: 環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
- 参考スコア(独自算出の注目度): 5.539080592071948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human preferences is crucial for language models (LMs) to
effectively cater to human needs and societal values. Previous research has
made notable progress by leveraging human feedback to follow instructions.
However, these approaches rely primarily on online learning techniques like
Proximal Policy Optimization (PPO), which have been proven unstable and
challenging to tune for language models. Moreover, PPO requires complex
distributed system implementation, hindering the efficiency of large-scale
distributed training. In this study, we propose an offline learning from human
feedback framework to align LMs without interacting with environments.
Specifically, we explore filtering alignment (FA), reward-weighted regression
(RWR), and conditional alignment (CA) to align language models to human
preferences. By employing a loss function similar to supervised fine-tuning,
our methods ensure more stable model training than PPO with a simple machine
learning system~(MLSys) and much fewer (around 9\%) computing resources.
Experimental results demonstrate that conditional alignment outperforms other
offline alignment methods and is comparable to PPO.
- Abstract(参考訳): 人間の好みから学ぶことは言語モデル(LM)にとって重要であり、人間のニーズや社会的価値に効果的に対応する。
従来の研究は、人間のフィードバックを利用して指示に従うことで顕著な進歩を遂げてきた。
しかし、これらのアプローチは主にPPO(Proximal Policy Optimization)のようなオンライン学習技術に依存しており、言語モデルのチューニングが不安定で難しいことが証明されている。
さらに、PPOは複雑な分散システムの実装を必要とし、大規模な分散トレーニングの効率を阻害する。
本研究では,環境と対話することなくLMを協調するオフライン学習手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)を検討し、言語モデルを人間の好みに合わせる。
教師付き微調整に類似した損失関数を用いることで、単純な機械学習システム~(MLSys)を用いてPPOよりも安定なモデルトレーニングを実現し、より少ない(約9倍)計算資源を実現できる。
実験の結果,条件付きアライメントは他のオフラインアライメント手法よりも優れており,ppoに匹敵する。
関連論文リスト
- Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Active Preference Learning for Large Language Models [13.211063836237468]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。