Fugu-MT 論文翻訳(概要): Aligning Language Models with Offline Reinforcement Learning from Human Feedback

論文の概要: Aligning Language Models with Offline Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2308.12050v1
Date: Wed, 23 Aug 2023 10:41:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-24 14:39:03.049264
Title: Aligning Language Models with Offline Reinforcement Learning from Human Feedback
Title（参考訳）: オフライン強化学習による言語モデルの調整
Authors: Jian Hu, Li Tao, June Yang, Chandler Zhou
Abstract要約: 言語モデルを人間の好みに合わせるために,RLHF(Human feedback)フレームワークによるオフライン強化学習を提案する。具体的には、言語モデルを人間の好みに合わせるために、フィルタリング、報酬重み付け回帰(RWR)、決定変換器(DT)を用いて最大推定(MLE)を探索する。
参考スコア（独自算出の注目度）: 5.539080592071948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from human preferences is crucial for language models (LMs) to effectively cater to human needs and societal values. Previous research has made notable progress by leveraging human feedback to follow instructions. However, these approaches rely primarily on online reinforcement learning (RL) techniques like Proximal Policy Optimization (PPO), which have been proven unstable and challenging to tune for language models. Moreover, PPO requires complex distributed system implementation, hindering the efficiency of large-scale distributed training. In this study, we propose an offline reinforcement learning from human feedback (RLHF) framework to align LMs using pre-generated samples without interacting with RL environments. Specifically, we explore maximum likelihood estimation (MLE) with filtering, reward-weighted regression (RWR), and Decision Transformer (DT) to align language models to human preferences. By employing a loss function similar to supervised fine-tuning, our methods ensure more stable model training than PPO with a simple machine learning system~(MLSys) and much fewer (around 12.3\%) computing resources. Experimental results demonstrate the DT alignment outperforms other Offline RLHF methods and is better than PPO.
Abstract（参考訳）: 人間の好みから学ぶことは言語モデル(LM)にとって重要であり、人間のニーズや社会的価値に効果的に対応する。従来の研究は、人間のフィードバックを利用して指示に従うことで顕著な進歩を遂げてきた。しかし、これらのアプローチは主にPPO(Proximal Policy Optimization)のようなオンライン強化学習(RL)技術に依存しており、言語モデルのチューニングが不安定で難しいことが証明されている。さらに、PPOは複雑な分散システムの実装を必要とし、大規模な分散トレーニングの効率を阻害する。本研究では,RL環境と対話することなく,事前生成したサンプルを用いてLMを調整するための,RLHFフレームワークによるオフライン強化学習を提案する。具体的には、言語モデルを人間の好みに合わせるために、フィルタリング、報酬重み付け回帰(RWR)、決定変換器(DT)を用いて最大推定(MLE)を検討する。教師付き微調整に類似した損失関数を用いることで、単純な機械学習システム~(MLSys)でPPOよりも安定なモデルトレーニングを実現し、コンピュータリソースをはるかに少なく(約12.3\%)する。実験の結果,DTアライメントは他のオフラインRLHF法よりも優れ,PPOよりも優れていた。

関連論文リスト

Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文参考訳（メタデータ） (2025-06-24T16:47:17Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。 RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文参考訳（メタデータ） (2024-03-28T14:15:10Z)
Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文参考訳（メタデータ） (2024-02-28T12:24:07Z)
Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文参考訳（メタデータ） (2024-02-12T23:09:00Z)
Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-07T12:31:13Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。