論文の概要: Unleashing the True Potential of LLMs: A Feedback-Triggered Self-Correction with Long-Term Multipath Decoding
- arxiv url: http://arxiv.org/abs/2509.07676v1
- Date: Tue, 09 Sep 2025 12:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.311012
- Title: Unleashing the True Potential of LLMs: A Feedback-Triggered Self-Correction with Long-Term Multipath Decoding
- Title(参考訳): LLMの真のポテンシャルを解き明かす:長期多重パスデコードによるフィードバックトリガー自己補正
- Authors: Jipeng Li, Zeyu Gao, Yubin Qi, Hande Dong, Weijian Chen, Qiang Lin,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを達成したが、推論中に誤ったコンテンツを生成することへの感受性は、決定的な未解決の課題である。
本稿では,ユーザフィードバックとデコードダイナミクスの強化を両立させる新しいフレームワークであるFeedback-Triggered Regeneration (FTR)を提案する。
具体的には、FTRは、負のユーザフィードバックを受けた場合にのみ応答再生を起動し、本来正しい出力を保持しながら、不良自己評価からのエラー伝播を回避する。
- 参考スコア(独自算出の注目度): 4.220190655754022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance across diverse tasks, yet their susceptibility to generating incorrect content during inference remains a critical unsolved challenge. While self-correction methods offer potential solutions, their effectiveness is hindered by two inherent limitations: (1) the absence of reliable guidance signals for error localization, and (2) the restricted reasoning depth imposed by conventional next-token decoding paradigms. To address these issues, we propose Feedback-Triggered Regeneration (FTR), a novel framework that synergizes user feedback with enhanced decoding dynamics. Specifically, FTR activates response regeneration only upon receiving negative user feedback, thereby circumventing error propagation from faulty self-assessment while preserving originally correct outputs. Furthermore, we introduce Long-Term Multipath (LTM) decoding, which enables systematic exploration of multiple reasoning trajectories through delayed sequence evaluation, effectively overcoming the myopic decision-making characteristic of standard next-token prediction. Extensive experiments on mathematical reasoning and code generation benchmarks demonstrate that our framework achieves consistent and significant improvements over state-of-the-art prompt-based self-correction methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを達成したが、推論中に誤ったコンテンツを生成することへの感受性は、決定的な未解決の課題である。
自己補正手法は潜在的な解決策を提供するが,その有効性には,(1) 誤り局所化のための信頼性の高いガイダンス信号が欠如していること,(2) 従来の次の復号パラダイムによって課される制限された推論深さの2つの制約がある。
これらの問題に対処するために,ユーザフィードバックとデコードダイナミクスの強化を相乗化する新しいフレームワークであるFeedback-Triggered Regeneration (FTR)を提案する。
具体的には、FTRは、負のユーザフィードバックを受けた場合にのみ応答再生を起動し、本来正しい出力を保持しながら、不良自己評価からのエラー伝播を回避する。
さらに、遅延シーケンス評価による複数の推論軌道の体系的な探索を可能にするLong-Term Multipath(LTM)デコーディングを導入し、標準的な次点予測の筋力決定特性を効果的に克服する。
数学的推論とコード生成ベンチマークに関する大規模な実験は、我々のフレームワークが最先端のプロンプトベースの自己補正手法よりも一貫性があり、重要な改善を達成していることを示している。
関連論文リスト
- From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [16.266957200961908]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Hierarchical Verification of Speculative Beams for Accelerating LLM Inference [0.0]
階層的検証木(Hierarchical Verification Tree、HVT)は投機的ビーム復号化を高度に優先順位付けすることで再構成する新しいフレームワークである。
HVTは既存の投機的復号法を一貫して上回り、推論時間とエネルギー消費を大幅に削減する。
発見は、大規模言語モデル推論を加速するための新しい方向として階層的検証戦略の可能性を強調している。
論文 参考訳(メタデータ) (2025-07-30T02:58:03Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [28.99265405319943]
我々はShannon Entropyを介して定量化されたトークンレベルの不確実性によって導かれる適応デコードフレームワークであるAdaDecを紹介する。
AdaDecは従来のビームサーチよりも15.5%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。