論文の概要: Self-Refine: Iterative Refinement with Self-Feedback
- arxiv url: http://arxiv.org/abs/2303.17651v2
- Date: Thu, 25 May 2023 19:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:23:38.435172
- Title: Self-Refine: Iterative Refinement with Self-Feedback
- Title(参考訳): 自己定義: 自己フィードバックによる反復的リファインメント
- Authors: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao,
Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang,
Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck,
Amir Yazdanbakhsh, Peter Clark
- Abstract要約: Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
- 参考スコア(独自算出の注目度): 62.78755306241981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Like humans, large language models (LLMs) do not always generate the best
output on their first try. Motivated by how humans refine their written text,
we introduce Self-Refine, an approach for improving initial outputs from LLMs
through iterative feedback and refinement. The main idea is to generate an
initial output using an LLMs; then, the same LLMs provides feedback for its
output and uses it to refine itself, iteratively. Self-Refine does not require
any supervised training data, additional training, or reinforcement learning,
and instead uses a single LLM as the generator, refiner, and feedback provider.
We evaluate Self-Refine across 7 diverse tasks, ranging from dialog response
generation to mathematical reasoning, using state-of-the-art (GPT-3.5, ChatGPT,
and GPT-4) LLMs. Across all evaluated tasks, outputs generated with Self-Refine
are preferred by humans and automatic metrics over those generated with the
same LLM using conventional one-step generation, improving by ~20% absolute on
average in task performance. Our work demonstrates that even state-of-the-art
LLMs like GPT-4 can be further improved at test time using our simple,
standalone approach.
- Abstract(参考訳): 人間と同様に、大きな言語モデル(LLM)は、最初の試行で最高の出力を生成するとは限らない。
人間が文章を洗練する方法に動機づけられ、反復的なフィードバックと洗練を通じてllmからの最初の出力を改善するためのアプローチであるself-refineを紹介します。
主なアイデアは、LLMを使って初期出力を生成することであり、同じLLMが出力に対してフィードバックを提供し、それを使って自分自身を反復的に洗練する。
Self-Refineは、教師付きトレーニングデータ、追加のトレーニング、強化学習を一切必要とせず、代わりにジェネレータ、精製器、フィードバックプロバイダとして単一のLCMを使用する。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論まで, 7 つのタスクにまたがる自己定義を評価する。
すべての評価されたタスクにおいて、自己定義で生成されたアウトプットは人間によって好まれ、従来の1ステップ生成を使用して同じllmで生成されたものよりも自動メトリクスが好まれる。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純なスタンドアロンアプローチを使ってテスト時にさらに改善できることを示します。
関連論文リスト
- Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。