論文の概要: Fine-tuning Language Models with Generative Adversarial Feedback
- arxiv url: http://arxiv.org/abs/2305.06176v2
- Date: Sun, 8 Oct 2023 00:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:53:07.871327
- Title: Fine-tuning Language Models with Generative Adversarial Feedback
- Title(参考訳): 生成的逆数フィードバックを持つ微調整言語モデル
- Authors: Zhang Ze Yu, Lau Jia Jaw, Wong Qin Jiang, Zhang Hui, Bryan Kian Hsiang
Low
- Abstract要約: RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
- 参考スコア(独自算出の注目度): 27.85021865582481
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has been demonstrated to
significantly enhance the performance of large language models (LLMs) by
aligning their outputs with desired human values through instruction tuning.
However, RLHF is constrained by the expertise and productivity limitations of
human evaluators. A response to this downside is to fall back to supervised
fine-tuning (SFT) with additional carefully selected expert demonstrations.
However, while this method has been proven to be effective, it invariably also
leads to increased human-in-the-loop overhead. In this study, we propose
another alternative approach: Reinforcement Learning with Generative
Adversarial Feedback (RLGAF) to RLHF and SFT, which uses a generative
adversarial training style to enable the LLMs to learn useful human expert
demonstrations without being directly exposed to the training examples, thus
enabling good generalization capabilities while preserving sample efficiency.
Our preliminary findings indicate that RLGAF can help align LLMs outputs with
competitive performance against RLHF and SFT, while not suffering from their
respective inherent restrictions, suggesting promising avenues for further
research on automating AI alignment.
- Abstract(参考訳): 人間のフィードバックによる強化学習(rlhf)は、命令チューニングによって出力を所望の人間の値に合わせることによって、大規模言語モデル(llm)の性能を著しく向上させることが実証されている。
しかしながら、RLHFは人間の評価者の専門性と生産性の制限によって制約されている。
この欠点に対する反応は、慎重に選択された専門家のデモンストレーションで監督された微調整(SFT)に戻ることである。
しかし、この方法が有効であることが証明されている一方で、必ずループ内の人的オーバーヘッドが増加する。
そこで本研究では,rlhfおよびsftへの生成的敵意フィードバック(rlgaf)による強化学習を提案する。これは生成的敵意トレーニングスタイルを用いて,llmがトレーニング例に直接露出することなく有用な人間専門家のデモンストレーションを学習することを可能にするもので,サンプル効率を維持しつつ優れた一般化能力を実現する。
予備的な知見は,RTGAFがLLHFとSFTの競合性能とLLMの出力を一致させるのに有効であり,それぞれ固有の制約に悩まされていないことを示唆し,AIアライメントの自動化に関するさらなる研究の道筋を示唆している。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment [42.71324708567498]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる重要な手法である。
我々は,LLMと人間の嗜好を直接整合させる,単純かつ効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:37:15Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback [5.3113139864044046]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RLAIFは、既製のLLMが生成した好みに基づいて報酬モデル(RM)を訓練する有望な代替手段を提供する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。