Fugu-MT 論文翻訳(概要): Self-Refine: Iterative Refinement with Self-Feedback

論文の概要: Self-Refine: Iterative Refinement with Self-Feedback

arxiv url: http://arxiv.org/abs/2303.17651v2
Date: Thu, 25 May 2023 19:13:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 20:23:38.435172
Title: Self-Refine: Iterative Refinement with Self-Feedback
Title（参考訳）: 自己定義: 自己フィードバックによる反復的リファインメント
Authors: Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, Peter Clark
Abstract要約: Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
参考スコア（独自算出の注目度）: 62.78755306241981
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Like humans, large language models (LLMs) do not always generate the best output on their first try. Motivated by how humans refine their written text, we introduce Self-Refine, an approach for improving initial outputs from LLMs through iterative feedback and refinement. The main idea is to generate an initial output using an LLMs; then, the same LLMs provides feedback for its output and uses it to refine itself, iteratively. Self-Refine does not require any supervised training data, additional training, or reinforcement learning, and instead uses a single LLM as the generator, refiner, and feedback provider. We evaluate Self-Refine across 7 diverse tasks, ranging from dialog response generation to mathematical reasoning, using state-of-the-art (GPT-3.5, ChatGPT, and GPT-4) LLMs. Across all evaluated tasks, outputs generated with Self-Refine are preferred by humans and automatic metrics over those generated with the same LLM using conventional one-step generation, improving by ~20% absolute on average in task performance. Our work demonstrates that even state-of-the-art LLMs like GPT-4 can be further improved at test time using our simple, standalone approach.
Abstract（参考訳）: 人間と同様に、大きな言語モデル(LLM)は、最初の試行で最高の出力を生成するとは限らない。人間が文章を洗練する方法に動機づけられ、反復的なフィードバックと洗練を通じてllmからの最初の出力を改善するためのアプローチであるself-refineを紹介します。主なアイデアは、LLMを使って初期出力を生成することであり、同じLLMが出力に対してフィードバックを提供し、それを使って自分自身を反復的に洗練する。 Self-Refineは、教師付きトレーニングデータ、追加のトレーニング、強化学習を一切必要とせず、代わりにジェネレータ、精製器、フィードバックプロバイダとして単一のLCMを使用する。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論まで, 7 つのタスクにまたがる自己定義を評価する。すべての評価されたタスクにおいて、自己定義で生成されたアウトプットは人間によって好まれ、従来の1ステップ生成を使用して同じllmで生成されたものよりも自動メトリクスが好まれる。我々の研究は、GPT-4のような最先端のLCMでさえ、単純なスタンドアロンアプローチを使ってテスト時にさらに改善できることを示します。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。 410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文参考訳（メタデータ） (2025-07-21T17:29:21Z)
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文参考訳（メタデータ） (2025-06-01T02:01:52Z)
Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? [33.92662524009036]
大きな言語モデル(LLM)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨のための有望なツールとして登場した。本稿では,事前学習したSRecモデルから抽出したユーザ表現をLLMに蒸留することにより,LLMへのシーケンシャル情報の統合を向上する手法を提案する。実験の結果, LLM-SRecは, ユーザの項目間相互作用の系列を理解する能力を高め, 最終的にレコメンデーション性能の向上につながることがわかった。
論文参考訳（メタデータ） (2025-02-19T17:41:09Z)
Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem [14.537146664859902]
人間と同様に、大きな言語モデル(LLM)は、最初の試みについて最適な説明を常に生成するとは限らない。本稿では,2つのLLMをジェネレータとして配置し,それぞれに役割モデリングを施したクロスリファインを紹介する。ジェネレータは、最初のNLEを出力し、その後、批評家から提供されるフィードバックと提案を使って、この最初の説明を洗練する。
論文参考訳（メタデータ） (2024-09-11T09:21:20Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-08-17T14:12:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。