論文の概要: Adaptive Stopping for Multi-Turn LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.01413v1
- Date: Wed, 01 Apr 2026 21:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.066946
- Title: Adaptive Stopping for Multi-Turn LLM Reasoning
- Title(参考訳): マルチTurn LLM推論のための適応ストッピング
- Authors: Xiaofan Zhou, Huy Nguyen, Bo Yu, Chenxi Liu, Lu Cheng,
- Abstract要約: マルチターン推論のためのコンフォーマル予測(MiCP)を用いたマルチターン言語モデルを提案する。
MiCPはターン毎に異なるエラー予算を割り当て、全体的なカバレッジ保証を維持しながらモデルが早期に停止することを可能にする。
適応RAGとReActでMICPを実証し、シングルホップとマルチホップの問合せベンチマークの両方で対象範囲を達成した。
- 参考スコア(独自算出の注目度): 19.992892941191577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly rely on multi-turn reasoning and interaction, such as adaptive retrieval-augmented generation (RAG) and ReAct-style agents, to answer difficult questions. These methods improve accuracy by iteratively retrieving information, reasoning, or acting, but introduce a key challenge: \textbf{When should the model stop?} Existing approaches rely on heuristic stopping rules or fixed turn budgets and provide no formal guarantees that the final prediction still contains the correct answer. This limitation is particularly problematic in high-stakes domains such as finance and healthcare, where unnecessary turns increase cost and latency, while stopping too early risks incorrect decisions. Conformal prediction (CP) provides formal coverage guarantees, but existing LLM-CP methods only apply to a single model output and cannot handle multi-turn pipelines with adaptive stopping. To address this gap, we propose Multi-Turn Language Models with Conformal Prediction (MiCP), the first CP framework for multi-turn reasoning. MiCP allocates different error budgets across turns, enabling the model to stop early while maintaining an overall coverage guarantee. We demonstrate MiCP on adaptive RAG and ReAct, where it achieves the target coverage on both single-hop and multi-hop question answering benchmarks while reducing the number of turns, inference cost, and prediction set size. We further introduce a new metric that jointly evaluates coverage validity and answering efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、難しい問題に答えるために、適応的検索強化生成(RAG)やReActスタイルのエージェントのようなマルチターン推論と相互作用にますます依存している。
これらのメソッドは、情報、推論、行動を繰り返し検索することで精度を向上させるが、重要な課題を導入する: \textbf{When モデルは停止すべきか?
既存のアプローチは、ヒューリスティックな停止規則や固定ターン予算に依存しており、最終的な予測が正しい回答を含むという正式な保証を提供していません。
この制限は、不必要なコストとレイテンシを増大させ、過度に早期のリスクを誤った判断を止める、金融や医療のような高リスク領域において特に問題となる。
コンフォーマル予測(CP)は、形式的なカバレッジ保証を提供するが、既存のLCM-CP法は単一のモデル出力にのみ適用され、適応的な停止を伴うマルチターンパイプラインの処理はできない。
このギャップに対処するため,マルチターン推論のための最初のCPフレームワークであるMulti-Turn Language Models with Conformal Prediction (MiCP)を提案する。
MiCPはターン毎に異なるエラー予算を割り当て、全体的なカバレッジ保証を維持しながらモデルが早期に停止することを可能にする。
適応的なRAGとReActでMICPを実証し、シングルホップとマルチホップの問合せベンチマークを対象とし、ターン数、推論コスト、予測セットサイズを削減した。
さらに、カバレッジの妥当性と回答効率を共同で評価する新しい指標を導入する。
関連論文リスト
- Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining [7.344577590113121]
Conformal Prediction (CP)は、大きな言語モデルに対して正確性を保証することを約束している。
適応的な拒絶と非交換可能なCPフレームワークを導入する。
本フレームワークは,CDPシナリオ下でのCPの有効性と信頼性を両立させる。
論文 参考訳(メタデータ) (2025-10-27T02:15:51Z) - Conformal Information Pursuit for Interactively Guiding Large Language Models [68.16703423481935]
本稿では,クエリ数の最小化を目的としたシーケンシャルクエリ戦略について検討する。
そのような戦略の1つは情報探索(IP)であり、各反復で情報ゲインを最大化または同等に不確実性を最小化するクエリを選択する。
本稿では,コンフォーマル情報探索法(C-IP)を提案する。
論文 参考訳(メタデータ) (2025-07-04T03:55:39Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。