論文の概要: In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning
- arxiv url: http://arxiv.org/abs/2510.00777v1
- Date: Wed, 01 Oct 2025 11:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.527933
- Title: In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning
- Title(参考訳): In-Place フィードバック:マルチスレッド推論における LLM 誘導のための新しいパラダイム
- Authors: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim,
- Abstract要約: LLMの以前の応答を直接編集する新しいインタラクションパラダイムであるin-place feedbackを導入する。
推論集約型ベンチマークの実証評価により、インプレースフィードバックは従来のマルチターンフィードバックよりも優れたパフォーマンスが得られることが示された。
- 参考スコア(独自算出の注目度): 10.138497038893096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using $79.1\%$ fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザが提供するフィードバックに基づいて、モデルが出力を反復的に洗練するマルチターン推論の文脈において、ますます研究されている。
このような設定は複雑な推論を必要とするタスクには不可欠だが、既存のフィードバックパラダイムはしばしば新しいメッセージの発行に依存している。
LLMはこれらを確実に統合するのに苦労し、不整合の改善につながった。
本研究では,LLMの以前の応答を直接編集する新しいインタラクションパラダイムであるインプレースフィードバックと,修正された応答のモデル条件を導入し,そのリビジョンを生成する。
多様な推論集約ベンチマークに関する実証的な評価によると、インプレースフィードバックは従来のマルチターンフィードバックよりも優れたパフォーマンスを達成し、79.1\%のトークンを減らしている。
さらに、制御された環境における補完的な分析は、インプレースフィードバックがマルチターンフィードバックのコア制限を解決することを証明している。
これらの結果から, インプレースフィードバックは, 推論集約的なタスクにおいて, LLMを誘導するためのより自然な, 効果的なメカニズムをもたらすことが示唆された。
関連論文リスト
- Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs [10.434732630519377]
本稿では,フィードバック機構の強化を主眼とした新しい自動プロンプト最適化(APO)フレームワークを提案する。
LLM生成したフィードバックに固有のノイズを軽減するため,フィードバックの多様化という手法を導入する。
我々のアプローチは、強いベースラインを一貫して上回り、大幅な精度の向上、より高速な収束、計算コストの低減を実現している。
論文 参考訳(メタデータ) (2025-07-14T00:20:14Z) - Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback [35.13591109493438]
提案手法は,フィードバックに対する抵抗性,すなわちフィードバック摩擦と呼ばれる制限を一貫して示している。
フィードバック摩擦を解析し、セマンティックエントロピーによって測定された特定の質問に対するモデルの信頼度が、フィードバック抵抗を予測する。
論文 参考訳(メタデータ) (2025-06-13T16:31:51Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。