論文の概要: DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows
- arxiv url: http://arxiv.org/abs/2603.00532v1
- Date: Sat, 28 Feb 2026 08:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.246854
- Title: DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows
- Title(参考訳): DenoiseFlow: 信頼性の高いLLMエージェントワークフローのための不確実性意識のDenoising
- Authors: Yandong Yan, Junwei Peng, Shijie Li, Chenxi Li, Yifei Shang, Can Deng, Ruiting Dai, Yongqiang Zhao, Jiaqi Zhu, Yu Huang,
- Abstract要約: 我々は多段階推論過程をノイズMDPとして定式化する。
DenoiseFlowは3つの調整段階を通じてプログレッシブなdenoisingを行うクローズドループフレームワークである。
- 参考スコア(独自算出の注目度): 20.319113495948294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents are increasingly entrusted with complex, long-horizon tasks, ranging from mathematical reasoning to software generation. While agentic workflows facilitate these tasks by decomposing them into multi-step reasoning chains, reliability degrades significantly as the sequence lengthens. Specifically, minor interpretation errors in natural-language instructions tend to compound silently across steps. We term this failure mode accumulated semantic ambiguity. Existing approaches to mitigate this often lack runtime adaptivity, relying instead on static exploration budgets, reactive error recovery, or single-path execution that ignores uncertainty entirely. We formalize the multi-step reasoning process as a Noisy MDP and propose DenoiseFlow, a closed-loop framework that performs progressive denoising through three coordinated stages: (1)Sensing estimates per-step semantic uncertainty; (2)Regulating adaptively allocates computation by routing between fast single-path execution and parallel exploration based on estimated risk; and (3)Correcting performs targeted recovery via influence-based root-cause localization. Online self-calibration continuously aligns decision boundaries with verifier feedback, requiring no ground-truth labels. Experiments on six benchmarks spanning mathematical reasoning, code generation, and multi-hop QA show that DenoiseFlow achieves the highest accuracy on every benchmark (83.3% average, +1.3% over the strongest baseline) while reducing cost by 40--56% through adaptive branching. Detailed ablation studies further confirm framework-level's robustness and generality. Code is available at https://anonymous.4open.science/r/DenoiseFlow-21D3/.
- Abstract(参考訳): 自律エージェントは、数学的推論からソフトウェア生成まで、複雑で長期にわたるタスクにますます信頼されている。
エージェントワークフローはそれらを多段階の推論チェーンに分解することでこれらのタスクを促進するが、信頼性はシーケンスが長くなるにつれて著しく低下する。
具体的には、自然言語命令の微妙な解釈誤りは、ステップ間で静かに結合する傾向がある。
この障害モードは意味的曖昧さを蓄積した。
既存のアプローチでは、静的な探索予算、リアクティブエラーリカバリ、不確実性を完全に無視するシングルパス実行に代えて、ランタイム適応性が欠如することが多い。
我々は,多段階の推論過程をノイズMDPとして形式化し,(1)ステップごとのセマンティック不確実性を推定すること,(2)高速な単一パス実行と並列探索の間のルーティングによる計算を適応的に割り当てること,(3)修正は影響に基づく根本原因のローカライゼーションによって対象のリカバリを実行すること,の3つの調整段階を通じてプログレッシブデノベーションを行うクローズドループフレームワークであるDenoiseFlowを提案する。
オンラインの自己校正は、決定境界を検証者からのフィードバックと継続的に整合させ、基調ラベルを必要としない。
数学的推論、コード生成、マルチホップQAにまたがる6つのベンチマークの実験では、DenoiseFlowは全てのベンチマーク(平均83.3%、最強のベースラインより+1.3%)で最高精度を達成し、適応分岐によるコストを40~56%削減している。
詳細なアブレーション研究はフレームワークレベルの堅牢性と一般性をさらに確認する。
コードはhttps://anonymous.4open.science/r/DenoiseFlow-21D3/で公開されている。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - From Entity Reliability to Clean Feedback: An Entity-Aware Denoising Framework Beyond Interaction-Level Signals [20.323837731778358]
暗黙のフィードバックはレコメンデーションシステムの中心であるが、本質的にノイズがあり、しばしばモデルのトレーニングやユーザエクスペリエンスの劣化を損なう。
textbfEARD(textbfEntity-textbfAware textbfReliability-textbfDriven Denoising)は,インタラクションレベルの信号からエンティティレベルの信頼性に移行する軽量フレームワークである。
論文 参考訳(メタデータ) (2025-08-14T17:20:12Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。