論文の概要: Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents
- arxiv url: http://arxiv.org/abs/2604.02155v1
- Date: Thu, 02 Apr 2026 15:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.88082
- Title: Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents
- Title(参考訳): シンプルさが向上する:関数型言語エージェントの非モノトニック・チェーン・オブ・ソート・バッジ効果
- Authors: Xuan Qi,
- Abstract要約: 思考の連鎖 (CoT) 推論は, エージェント性能を向上させることが広く想定されている。
機能呼び出しエージェントに対するCOT予算効果の系統的研究を行った。
我々の中心的な発見は、Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) における顕著な非単調パターンである。
- 参考スコア(独自算出の注目度): 0.25891009512378166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How much should a language agent think before taking action? Chain-of-thought (CoT) reasoning is widely assumed to improve agent performance, but the relationship between reasoning length and accuracy in structured tool-use settings remains poorly understood. We present a systematic study of CoT budget effects on function-calling agents, sweeping six token budgets (0--512) across 200 tasks from the Berkeley Function Calling Leaderboard v3 Multiple benchmark. Our central finding is a striking non-monotonic pattern on Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) dramatically improves accuracy by 45% relative over direct answers, from 44.0% to 64.0%, while extended reasoning (256 tokens) degrades performance well below the no-CoT baseline, to 25.0% (McNemar p < 0.001). A three-way error decomposition reveals the mechanism. At d = 0, 30.5% of tasks fail because the model selects the wrong function from the candidate set; brief CoT reduces this to 1.5%, effectively acting as a function-routing step, while long CoT reverses the gain, yielding 28.0% wrong selections and 18.0% hallucinated functions at d = 256. Oracle analysis shows that 88.6% of solvable tasks require at most 32 reasoning tokens, with an average of 27.6 tokens, and a finer-grained sweep indicates that the true optimum lies at 8--16 tokens. Motivated by this routing effect, we propose Function-Routing CoT (FR-CoT), a structured brief-CoT method that templates the reasoning phase as "Function: [name] / Key args: [...]," forcing commitment to a valid function name at the start of reasoning. FR-CoT achieves accuracy statistically equivalent to free-form d = 32 CoT while reducing function hallucination to 0.0%, providing a structural reliability guarantee without budget tuning.
- Abstract(参考訳): 行動を起こす前に言語エージェントはいくら考えるべきか?
チェーン・オブ・シント推論(CoT)はエージェント性能を向上させると広く考えられているが、構造化ツール使用設定における推論長と精度の関係はよく分かっていない。
我々は,機能呼び出しエージェントに対するCoT予算の効果について,バークレー関数呼び出しリーダーボードv3マルチベンチマークから200タスクにわたって6つのトークン予算 (0--512) を網羅した体系的研究を行った。
Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) は44.0%から64.0%に、long reasoning (256 tokens) はno-CoTベースライン以下で性能を25.0%(McNemar p < 0.001)に劇的に改善する。
3方向の誤差分解により、その機構が明らかになる。
d = 0では、モデルが候補集合から間違った関数を選択するため、タスクの30.5%が失敗し、ショートCoTはこれを1.5%に減らし、事実上関数ルーティングステップとして機能する一方、長いCoTはゲインを反転させ、28.0%の間違った選択と18.0%の幻覚関数をd = 256で生成する。
Oracleの分析によると、解決可能なタスクの88.6%は少なくとも32の推論トークンを必要としており、平均は27.6のトークンである。
このルーティング効果によって動機づけられたFunction-Routing CoT (FR-CoT) は、推論フェーズを「Function: [name] / Key args: [...]」とテンプレート化して、推論の開始時に有効な関数名へのコミットを強制する構造的ショートCoT法である。
FR-CoTは、関数幻覚を0.0%に抑えつつ、自由形 d = 32 CoT と統計的に等価な精度を実現し、予算調整なしで構造的信頼性を保証する。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。
CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。
さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文 参考訳(メタデータ) (2025-05-23T12:41:29Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - The CoT Collection: Improving Zero-shot and Few-shot Learning of
Language Models via Chain-of-Thought Fine-Tuning [50.75534397373867]
100B未満のパラメータを持つ言語モデル(LM)は、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。
本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。
論文 参考訳(メタデータ) (2023-05-23T13:14:59Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。