論文の概要: Aligning Large Language Models through Synthetic Feedback
- arxiv url: http://arxiv.org/abs/2305.13735v1
- Date: Tue, 23 May 2023 06:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:37:16.378257
- Title: Aligning Large Language Models through Synthetic Feedback
- Title(参考訳): 合成フィードバックによる大規模言語モデルの調整
- Authors: Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak,
Kang Min Yoo, Minjoon Seo
- Abstract要約: そこで本研究では,人的労力をほとんど必要とせず,あらかじめ整列されたLLMに依存しないアライメント学習の枠組みを提案する。
得られたモデルであるAligned Language Model with Synthetic Training dataset (ALMoST)は、Alpaca、Dlly、OpenAssistantなど、オープンソースモデルよりも優れている。
我々の7Bサイズモデルは、GPT-4を平均75%の勝利率で判定し、A/Bテストで12-13Bモデルを上回った。
- 参考スコア(独自算出の注目度): 24.712915799458752
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligning large language models (LLMs) to human values has become increasingly
important as it enables sophisticated steering of LLMs, e.g., making them
follow given instructions while keeping them less toxic. However, it requires a
significant amount of human demonstrations and feedback. Recently, open-sourced
models have attempted to replicate the alignment learning process by distilling
data from already aligned LLMs like InstructGPT or ChatGPT. While this process
reduces human efforts, constructing these datasets has a heavy dependency on
the teacher models. In this work, we propose a novel framework for alignment
learning with almost no human labor and no dependency on pre-aligned LLMs.
First, we perform reward modeling (RM) with synthetic feedback by contrasting
responses from vanilla LLMs with various sizes and prompts. Then, we use the RM
for simulating high-quality demonstrations to train a supervised policy and for
further optimizing the model with reinforcement learning. Our resulting model,
Aligned Language Model with Synthetic Training dataset (ALMoST), outperforms
open-sourced models, including Alpaca, Dolly, and OpenAssistant, which are
trained on the outputs of InstructGPT or human-annotated instructions. Our
7B-sized model outperforms the 12-13B models in the A/B tests using GPT-4 as
the judge with about 75% winning rate on average.
- Abstract(参考訳): 大型言語モデル(LLM)を人的価値に適応させることは、LLMの高度なステアリングを可能にするため、例えば、与えられた指示に従って、毒性を抑えながら、それらを従わせることがますます重要になっている。
しかし、それはかなりの量の人間のデモとフィードバックを必要とする。
オープンソースモデルは、instructgptやchatgptといった既に調整済みのllmからデータを蒸留することで、アライメント学習プロセスを再現しようと試みている。
このプロセスは人間の努力を減らすが、これらのデータセットの構築は教師のモデルに大きく依存する。
本研究では,人間の労働力にほとんど依存せず,あらかじめ整列されたLLMに依存しないアライメント学習の枠組みを提案する。
まず,バニラLLMからの応答を様々なサイズとプロンプトと対比することにより,合成フィードバックによる報酬モデリング(RM)を行う。
次に,質の高い実演をシミュレートし,教師付きポリシーを訓練し,強化学習によりモデルをさらに最適化するためにrmを用いる。
得られたモデルであるAligned Language Model with Synthetic Training dataset (ALMoST)は、Alpaca、Dlly、OpenAssistantなどのオープンソースモデルよりも優れており、InstructGPTや人手による指示の出力に基づいてトレーニングされている。
7bサイズモデルは,gpt-4を平均75%の勝率で判定したa/bテストで12~13bモデルを上回った。
関連論文リスト
- Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。