論文の概要: Understanding the Effects of RLHF on LLM Generalisation and Diversity
- arxiv url: http://arxiv.org/abs/2310.06452v2
- Date: Wed, 3 Jan 2024 11:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:32:16.072440
- Title: Understanding the Effects of RLHF on LLM Generalisation and Diversity
- Title(参考訳): LLMの一般化と多様性に及ぼすRLHFの影響の理解
- Authors: Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis, Jelena
Luketina, Eric Hambro, Edward Grefenstette, Roberta Raileanu
- Abstract要約: 人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
- 参考スコア(独自算出の注目度): 26.56388427640671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) fine-tuned with reinforcement learning from
human feedback (RLHF) have been used in some of the most widely deployed AI
models to date, such as OpenAI's ChatGPT or Anthropic's Claude. % , or Meta's
LLaMA-2. While there has been significant work developing these methods, our
understanding of the benefits and downsides of each stage in RLHF is still
limited. To fill this gap, we present an extensive analysis of how each stage
of the process (i.e.~supervised fine-tuning (SFT), reward modelling, and RLHF)
affects two key properties: out-of-distribution (OOD) generalisation and output
diversity. OOD generalisation is crucial given the wide range of real-world
scenarios in which these models are being used, while output diversity refers
to the model's ability to generate varied outputs and is important for a
variety of use cases. We perform our analysis across two base models on both
summarisation and instruction following tasks, the latter being highly relevant
for current LLM use cases. We find that RLHF generalises better than SFT to new
inputs, particularly as the distribution shift between train and test becomes
larger. However, RLHF significantly reduces output diversity compared to SFT
across a variety of measures, implying a tradeoff in current LLM fine-tuning
methods between generalisation and diversity. Our results provide guidance on
which fine-tuning method should be used depending on the application, and show
that more research is needed to improve the tradeoff between generalisation and
diversity.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習で微調整された大規模言語モデル(LLM)は、OpenAIのChatGPTやAnthropicのClaudeなど、これまで最も広くデプロイされたAIモデルで使用されている。
%,metaはllama-2。
これらの手法の開発には大きな成果があるが、RLHFにおける各段階の利点と欠点の理解はまだ限られている。
このギャップを埋めるために、プロセスの各段階(sft(supervised fine-tuning)、報酬モデリング(reward modelling)、rlhf)が2つの重要な特性(out-of-distribution(ood)の一般化と出力多様性(out-distribution diversity)にどのように影響するかを詳細に分析する。
oodの一般化は、これらのモデルが使われている幅広い実世界のシナリオを考えると重要であるが、アウトプットの多様性は、モデルが様々な出力を生成する能力を示しており、様々なユースケースにとって重要である。
要約と命令追従タスクの両方で2つのベースモデルで分析を行い,後者は現在のllmのユースケースに非常に関連している。
RLHFは、特に列車と試験の間の分散シフトが大きくなるにつれて、新しい入力に対してSFTよりも優れている。
しかしながら、RLHFはSFTと比較して出力の多様性を著しく低減し、一般化と多様性の間の現在のLLM微調整法におけるトレードオフを示唆している。
本研究は,アプリケーションに応じてどの微調整方法を使用するべきかを指導し,一般化と多様性のトレードオフを改善するためのさらなる研究が必要であることを示す。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。