Fugu-MT 論文翻訳(概要): Self-Refine: Iterative Refinement with Self-Feedback

論文の概要: Self-Refine: Iterative Refinement with Self-Feedback

arxiv url: http://arxiv.org/abs/2303.17651v1
Date: Thu, 30 Mar 2023 18:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 16:15:07.178717
Title: Self-Refine: Iterative Refinement with Self-Feedback
Title（参考訳）: 自己定義: 自己フィードバックによる反復的リファインメント
Authors: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Sean Welleck, Bodhisattwa Prasad Majumder, Shashank Gupta, Amir Yazdanbakhsh, Peter Clark
Abstract要約: LLMの初期出力を同様に改善するフレームワークであるSELF-REFINEを紹介する。主なアイデアは、LLMを使用して出力を生成し、同じモデルが自身の出力に対してマルチアスペクトフィードバックを提供することである。最後に、同じモデルは、独自のフィードバックを得て、以前に生成された出力を洗練します。
参考スコア（独自算出の注目度）: 63.98677138000272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Like people, LLMs do not always generate the best text for a given generation problem on their first try (e.g., summaries, answers, explanations). Just as people then refine their text, we introduce SELF-REFINE, a framework for similarly improving initial outputs from LLMs through iterative feedback and refinement. The main idea is to generate an output using an LLM, then allow the same model to provide multi-aspect feedback for its own output; finally, the same model refines its previously generated output given its own feedback. Unlike earlier work, our iterative refinement framework does not require supervised training data or reinforcement learning, and works with a single LLM. We experiment with 7 diverse tasks, ranging from review rewriting to math reasoning, demonstrating that our approach outperforms direct generation. In all tasks, outputs generated with SELF-REFINE are preferred by humans and by automated metrics over those generated directly with GPT-3.5 and GPT-4, improving on average by absolute 20% across tasks.
Abstract（参考訳）: 人と同様に、LLMは最初の試行で与えられた世代問題(要約、回答、説明など)に対して常に最高のテキストを生成するわけではない。人々がテキストを洗練させるのと同じように、反復的なフィードバックと改善を通じてLLMからの初期出力を改善するフレームワークであるSELF-REFINEを導入します。主なアイデアは、llmを使用して出力を生成して、同じモデルが自身の出力に対してマルチアスペクトのフィードバックを提供することである。従来の作業とは異なり、反復的な改善フレームワークは教師付きトレーニングデータや強化学習を必要とせず、単一のLLMで動作する。レビューの書き直しから数学の推論まで,7つのタスクを試行し,我々のアプローチが直接生成より優れていることを示す。すべてのタスクにおいて、SELF-REFINEで生成された出力は、人間や、GPT-3.5とGPT-4で直接生成されたものよりも自動化されたメトリクスによって好まれる。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。 410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文参考訳（メタデータ） (2025-07-21T17:29:21Z)
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文参考訳（メタデータ） (2025-06-01T02:01:52Z)
Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? [33.92662524009036]
大きな言語モデル(LLM)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨のための有望なツールとして登場した。本稿では,事前学習したSRecモデルから抽出したユーザ表現をLLMに蒸留することにより,LLMへのシーケンシャル情報の統合を向上する手法を提案する。実験の結果, LLM-SRecは, ユーザの項目間相互作用の系列を理解する能力を高め, 最終的にレコメンデーション性能の向上につながることがわかった。
論文参考訳（メタデータ） (2025-02-19T17:41:09Z)
Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem [14.537146664859902]
人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
論文参考訳（メタデータ） (2024-09-11T09:21:20Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-08-17T14:12:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。