論文の概要: Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2604.05404v2
- Date: Tue, 14 Apr 2026 06:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.110373
- Title: Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
- Title(参考訳): ツール統合推論における非効率パターンの解明
- Authors: Qisheng Su, Shiting Huang, Zhen Fang, Ziyan Chen, Zehui Chen, Feng Zhao,
- Abstract要約: トークン数やツールコール数といった既存の効率メトリクスは、実際のモデル推論遅延をキャプチャできない。
PTE(Prefill Token Equivalents)は,内部推論と外部ツール使用コストを統一するハードウェア対応のTIR効率指標である。
- 参考スコア(独自算出の注目度): 29.504325731668033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world Tool-Integrated Reasoning (TIR) scenarios, where LLMs interleave reasoning with external tool calls, a major source of inefficiency is that the toolcalls create pauses between LLM requests and cause KV-Cache eviction, forcing recomputation. Also, the long, unfiltered response returned by external tools inflates the KV-Cache, so each decode step spends more time loading the growing cache and thus becomes steadily slower as context length increases. However, existing efficiency metrics like token counts and toolcall counts fail to capture the real model inference latency. To address this, we introduce PTE (Prefill Token Equivalents), a hardware-aware TIR-efficiency metric that unifies internal reasoning and external tool-use costs while explicitly accounting for non-reusable KV-Cache and long-tool-response scenarios. Validation in a high-concurrency industrial setting indicates that PTE aligns significantly better with wall-clock latency than standard token counts, while maintaining consistent efficiency rankings across diverse hardware profiles. We conduct extensive experiments across five TIR benchmarks, quantify their PTE costs, and identify four inefficiency patterns that appear in TIR. We also discover that trajectories with higher PTE costs tend to have lower reasoning correctness, indicating that simply using more tools does not improve the quality of the answer.
- Abstract(参考訳): LLMが外部のツールコールと推論をインターリーブする現実世界のTool-Integrated Reasoning(TIR)シナリオでは、ツールコールがLLMリクエスト間で一時停止を生成し、KV-Cacheの排除を引き起こし、再計算を強制する。
また、外部ツールによって返される長い、フィルタされていないレスポンスは、KV-Cacheを膨らませるため、各デコードステップは、増大するキャッシュのロードにより多くの時間を費やすため、コンテキストの長さが増加するにつれて、着実に遅くなります。
しかしながら、トークン数やツールコール数といった既存の効率メトリクスは、実際のモデル推論遅延をキャプチャできない。
PTE(Prefill Token Equivalents)は、内部推論と外部ツール使用コストを統一し、再利用不能なKVキャッシュと長期応答シナリオを明示的に考慮した、ハードウェア対応のTIR効率指標である。
高いコンカレンシーな産業環境での検証は、PTEが標準的なトークン数よりもウォールクロックレイテンシと大幅に整合し、多様なハードウェアプロファイルで一貫した効率のランキングを維持していることを示している。
我々は5つのTIRベンチマークにまたがって広範な実験を行い、それらのPTEコストを定量化し、TIRに現れる4つの非効率パターンを特定した。
また,PTEコストが高いトラジェクトリでは推論精度が低下する傾向があり,単にツールを多用するだけで解の質が向上しないことを示す。
関連論文リスト
- Tiny Inference-Time Scaling with Latent Verifiers [56.696619768584675]
Verifier on Hidden States (VHS) は、Diffusion Transformer (DiT) の中間的な隠れ表現で動作する。
VHSは、画素空間に復号することなくジェネレータ機能を解析することにより、候補毎の検証コストを削減できる。
VHSは同じ推論時予算でGenEvalを+2.7%改善する。
論文 参考訳(メタデータ) (2026-03-23T19:00:02Z) - Leveraging KV Similarity for Online Structured Pruning in LLMs [7.067238287331514]
プルーニングは、大規模言語モデル(LLM)推論を加速するための有望な方向として現れている。
我々は、キャリブレーションデータなしで推論中にプルーニング決定を直接行う軽量なオンライン構造化プルーニング技術であるToken Filteringを紹介した。
LLaMA-2 (7B/13B)、LLaMA-3 (8B)、Mistral (7B) の試験では、Token Filtering が以前の構造化プルーニング法より一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2025-12-08T01:56:27Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Towards An Efficient and Effective En Route Travel Time Estimation Framework [20.389337165782646]
経路旅行時間推定(ER-TTE)は、残りの経路の走行時間を予測することに焦点を当てる。
既存のER-TTEメソッドは、常にリアルタイムのパフォーマンスを著しく損なう再推定を行う。
不確実性誘導決定機構(UGD)とファインチューニングとメタラーニング(FTML)を組み合わせた汎用的効率的なフレームワークU-ERTTEを提案する。
論文 参考訳(メタデータ) (2025-04-05T07:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。