Fugu-MT 論文翻訳(概要): Learning to Refine with Fine-Grained Natural Language Feedback

論文の概要: Learning to Refine with Fine-Grained Natural Language Feedback

arxiv url: http://arxiv.org/abs/2407.02397v1
Date: Tue, 2 Jul 2024 16:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 14:46:41.830253
Title: Learning to Refine with Fine-Grained Natural Language Feedback
Title（参考訳）: 自然言語の微粒化フィードバックによる微粒化学習
Authors: Manya Wadhwa, Xinyu Zhao, Junyi Jessy Li, Greg Durrett,
Abstract要約: 我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。このアプローチの重要な特性は、ステップ2の批判モデルがエラーに関するきめ細かいフィードバックを与えてくれることです。文書基盤要約の現実的整合性を改善する作業において,異なる機能モデルがこのアプローチの精細化の恩恵を受けることを示す。
参考スコア（独自算出の注目度）: 81.70313509881315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has explored the capability of large language models (LLMs) to identify and correct errors in LLM-generated responses. These refinement approaches frequently evaluate what sizes of models are able to do refinement for what problems, but less attention is paid to what effective feedback for refinement looks like. In this work, we propose looking at refinement with feedback as a composition of three distinct LLM competencies: (1) identification of bad generations; (2) fine-grained natural language feedback generation; (3) refining with fine-grained feedback. The first step can be implemented with a high-performing discriminative model and steps 2 and 3 can be implemented either via prompted or fine-tuned LLMs. A key property of this approach is that the step 2 critique model can give fine-grained feedback about errors, made possible by offloading the discrimination to a separate model in step 1. We show that models of different capabilities benefit from refining with this approach on the task of improving factual consistency of document grounded summaries. Overall, our proposed method consistently outperforms existing end-to-end refinement approaches and current trained models not fine-tuned for factuality critiquing.
Abstract（参考訳）: 最近の研究は、LLM生成応答における誤りを識別し、修正する大規模言語モデル(LLM)の能力について検討している。これらの改善アプローチは、モデルのサイズがどの問題に対して改善できるかを頻繁に評価するが、改善のための効果的なフィードバックがどのようなものかに注意を払わない。本研究では,(1)悪い世代を特定すること,(2)きめ細かい自然言語のフィードバック生成,(3)きめ細かいフィードバックによる精細化という,3つの異なるLLM能力の構成要素として,フィードバックによる精細化を検討することを提案する。第1ステップは、高い性能の判別モデルで実装することができ、ステップ2,3は、インパルスまたは微調整LDMを介して実装することができる。このアプローチの重要な特性は、ステップ2の批判モデルが、ステップ1で別のモデルに識別をオフロードすることで可能な、エラーに関するきめ細かいフィードバックを与えることができることである。文書基盤要約の事実整合性を改善する作業において,異なる能力のモデルが,このアプローチの精細化の恩恵を受けることを示す。全体として,提案手法は既存のエンドツーエンド改良手法よりも優れており,現行の訓練モデルでは現実性基準を微調整することができない。

関連論文リスト

The Bidirectional Process Reward Model [9.082060895625958]
双方向プロセスリワードモデル(BiPRM)と呼ばれる新しい双方向評価パラダイムを提案する。 BiPRMは、従来のL2Rフローと並行して、並列右から左へ(R2L)評価ストリームをシームレスに組み込む。 3つの異なるポリシーモデルから生成されたサンプルを用いて、2つの数学的推論ベンチマークで広範な実験を行う。
論文参考訳（メタデータ） (2025-08-03T09:23:49Z)
DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。 Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文参考訳（メタデータ） (2024-09-18T17:12:41Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。 a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文参考訳（メタデータ） (2024-01-01T08:32:50Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文参考訳（メタデータ） (2023-10-28T11:22:22Z)
Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文参考訳（メタデータ） (2023-05-23T13:48:32Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。