論文の概要: Self-Refine: Iterative Refinement with Self-Feedback
- arxiv url: http://arxiv.org/abs/2303.17651v2
- Date: Thu, 25 May 2023 19:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:23:38.435172
- Title: Self-Refine: Iterative Refinement with Self-Feedback
- Title(参考訳): 自己定義: 自己フィードバックによる反復的リファインメント
- Authors: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao,
Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang,
Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck,
Amir Yazdanbakhsh, Peter Clark
- Abstract要約: Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
- 参考スコア(独自算出の注目度): 62.78755306241981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Like humans, large language models (LLMs) do not always generate the best
output on their first try. Motivated by how humans refine their written text,
we introduce Self-Refine, an approach for improving initial outputs from LLMs
through iterative feedback and refinement. The main idea is to generate an
initial output using an LLMs; then, the same LLMs provides feedback for its
output and uses it to refine itself, iteratively. Self-Refine does not require
any supervised training data, additional training, or reinforcement learning,
and instead uses a single LLM as the generator, refiner, and feedback provider.
We evaluate Self-Refine across 7 diverse tasks, ranging from dialog response
generation to mathematical reasoning, using state-of-the-art (GPT-3.5, ChatGPT,
and GPT-4) LLMs. Across all evaluated tasks, outputs generated with Self-Refine
are preferred by humans and automatic metrics over those generated with the
same LLM using conventional one-step generation, improving by ~20% absolute on
average in task performance. Our work demonstrates that even state-of-the-art
LLMs like GPT-4 can be further improved at test time using our simple,
standalone approach.
- Abstract(参考訳): 人間と同様に、大きな言語モデル(LLM)は、最初の試行で最高の出力を生成するとは限らない。
人間が文章を洗練する方法に動機づけられ、反復的なフィードバックと洗練を通じてllmからの最初の出力を改善するためのアプローチであるself-refineを紹介します。
主なアイデアは、LLMを使って初期出力を生成することであり、同じLLMが出力に対してフィードバックを提供し、それを使って自分自身を反復的に洗練する。
Self-Refineは、教師付きトレーニングデータ、追加のトレーニング、強化学習を一切必要とせず、代わりにジェネレータ、精製器、フィードバックプロバイダとして単一のLCMを使用する。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論まで, 7 つのタスクにまたがる自己定義を評価する。
すべての評価されたタスクにおいて、自己定義で生成されたアウトプットは人間によって好まれ、従来の1ステップ生成を使用して同じllmで生成されたものよりも自動メトリクスが好まれる。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純なスタンドアロンアプローチを使ってテスト時にさらに改善できることを示します。
関連論文リスト
- Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem [14.537146664859902]
人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。
本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
論文 参考訳(メタデータ) (2024-09-11T09:21:20Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。