論文の概要: Self-Refine: Iterative Refinement with Self-Feedback
- arxiv url: http://arxiv.org/abs/2303.17651v1
- Date: Thu, 30 Mar 2023 18:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:15:07.178717
- Title: Self-Refine: Iterative Refinement with Self-Feedback
- Title(参考訳): 自己定義: 自己フィードバックによる反復的リファインメント
- Authors: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao,
Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Sean
Welleck, Bodhisattwa Prasad Majumder, Shashank Gupta, Amir Yazdanbakhsh,
Peter Clark
- Abstract要約: LLMの初期出力を同様に改善するフレームワークであるSELF-REFINEを紹介する。
主なアイデアは、LLMを使用して出力を生成し、同じモデルが自身の出力に対してマルチアスペクトフィードバックを提供することである。
最後に、同じモデルは、独自のフィードバックを得て、以前に生成された出力を洗練します。
- 参考スコア(独自算出の注目度): 63.98677138000272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Like people, LLMs do not always generate the best text for a given generation
problem on their first try (e.g., summaries, answers, explanations). Just as
people then refine their text, we introduce SELF-REFINE, a framework for
similarly improving initial outputs from LLMs through iterative feedback and
refinement. The main idea is to generate an output using an LLM, then allow the
same model to provide multi-aspect feedback for its own output; finally, the
same model refines its previously generated output given its own feedback.
Unlike earlier work, our iterative refinement framework does not require
supervised training data or reinforcement learning, and works with a single
LLM. We experiment with 7 diverse tasks, ranging from review rewriting to math
reasoning, demonstrating that our approach outperforms direct generation. In
all tasks, outputs generated with SELF-REFINE are preferred by humans and by
automated metrics over those generated directly with GPT-3.5 and GPT-4,
improving on average by absolute 20% across tasks.
- Abstract(参考訳): 人と同様に、LLMは最初の試行で与えられた世代問題(要約、回答、説明など)に対して常に最高のテキストを生成するわけではない。
人々がテキストを洗練させるのと同じように、反復的なフィードバックと改善を通じてLLMからの初期出力を改善するフレームワークであるSELF-REFINEを導入します。
主なアイデアは、llmを使用して出力を生成して、同じモデルが自身の出力に対してマルチアスペクトのフィードバックを提供することである。
従来の作業とは異なり、反復的な改善フレームワークは教師付きトレーニングデータや強化学習を必要とせず、単一のLLMで動作する。
レビューの書き直しから数学の推論まで,7つのタスクを試行し,我々のアプローチが直接生成より優れていることを示す。
すべてのタスクにおいて、SELF-REFINEで生成された出力は、人間や、GPT-3.5とGPT-4で直接生成されたものよりも自動化されたメトリクスによって好まれる。
関連論文リスト
- Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem [14.537146664859902]
人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。
本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。
ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
論文 参考訳(メタデータ) (2024-09-11T09:21:20Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。