論文の概要: A Critical Evaluation of AI Feedback for Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12366v1
- Date: Mon, 19 Feb 2024 18:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 14:55:30.563842
- Title: A Critical Evaluation of AI Feedback for Aligning Large Language Models
- Title(参考訳): 大規模言語モデルに対するAIフィードバックの批判的評価
- Authors: Archit Sharma, Sedrick Keh, Eric Mitchell, Chelsea Finn, Kushal Arora,
Thomas Kollar
- Abstract要約: 教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
- 参考スコア(独自算出の注目度): 60.42291111149438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with AI feedback (RLAIF) is a popular paradigm for
improving the instruction-following abilities of powerful pre-trained language
models. RLAIF first performs supervised fine-tuning (SFT) using demonstrations
from a teacher model and then further fine-tunes the model with reinforcement
learning (RL), using feedback from a critic model. While recent popular
open-source models have demonstrated substantial improvements in performance
from the RL step, in this paper we question whether the complexity of this RL
step is truly warranted for AI feedback. We show that the improvements of the
RL step are virtually entirely due to the widespread practice of using a weaker
teacher model (e.g. GPT-3.5) for SFT data collection than the critic (e.g.,
GPT-4) used for AI feedback generation. Specifically, we show that simple
supervised fine-tuning with GPT-4 as the teacher outperforms existing RLAIF
pipelines. More generally, we find that the gains from RLAIF vary substantially
across base model families, test-time evaluation protocols, and critic models.
Finally, we provide a mechanistic explanation for when SFT may outperform the
full two-step RLAIF pipeline as well as suggestions for making RLAIF maximally
useful in practice.
- Abstract(参考訳): AIフィードバックによる強化学習(RLAIF)は、強力な事前学習言語モデルの命令追従能力を改善するための一般的なパラダイムである。
RLAIFはまず教師モデルからのデモンストレーションを用いて教師付き微調整(SFT)を行い、さらに批判モデルからのフィードバックを用いて強化学習(RL)でモデルをさらに微調整する。
最近のポピュラーなオープンソースモデルは、RLステップから大幅に改善されているが、この記事では、このRLステップの複雑さがAIフィードバックに真に保証されているかどうかを疑問視する。
本稿では,AIフィードバック生成に使用する批判者(GPT-4など)よりも,SFTデータ収集に弱い教師モデル(GPT-3.5など)を用いることによって,RLステップの改善がほぼ完全に実現されていることを示す。
具体的には、教師が既存のRLAIFパイプラインより優れたGPT-4による教師付き微調整を行うことを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
最後に、SFTが2段階のRLAIFパイプラインより優れている場合と、実際にRLAIFを最大限に有効にするための提案について説明する。
関連論文リスト
- HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback [47.12549302721597]
我々はAIフィードバック(HRLAIF)によるハイブリッド強化学習を提案する。
この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。
HRLAIFはRLAIFの能力を継承し、低コストで結果に対する人間の嗜好を高めると同時に、反応の満足度を向上させる。
論文 参考訳(メタデータ) (2024-03-13T07:38:20Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。