論文の概要: AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.14696v1
- Date: Wed, 21 Jan 2026 06:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.257972
- Title: AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization
- Title(参考訳): AdaTIR: 難易度を考慮したポリシー最適化による適応型ツール統合推論
- Authors: Zhaiyu Fang, Ruipeng Sun,
- Abstract要約: 現在のエージェントは認知的オフロードを示し、単純なタスクであっても外部ツールを冗長に呼び出す。
本稿では,静的ツール呼び出しから内部化の難易度を考慮した推論へパラダイムをシフトするフレームワークを提案する。
AdaTIRは、ツールアクセスが厳格に無効化されている場合でも、AIME 2024のベースラインを4.8%上回る推論を成功させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-Integrated Reasoning (TIR) has significantly enhanced the capabilities of Large Language Models (LLMs), yet current agents tend to exhibit cognitive offloading, redundantly invoking external tools even for simple tasks. In this paper, we suggest that true agentic intelligence requires not just tool invocation, but the adaptive wisdom to discern when to use them. We propose AdaTIR, a framework that shifts the paradigm from static tool invocation to difficulty-aware reasoning internalization. By introducing a difficulty-aware efficiency reward, AdaTIR dynamically adjusts tool budgets based on task complexity--internalizing reasoning for simple tasks while selectively invoking tools for complex tasks. Furthermore, we identify a sign reversal problem where tool penalties outweigh correctness rewards, mistakenly penalizing correct rollouts with negative advantages. To resolve this, we propose Clipped Advantage Shaping (CAS), which ensures that correctness remains the primary objective while using efficiency as a secondary constraint. Empirical results demonstrate that AdaTIR reduces tool calls by up to 97.6% on simple tasks and 28.2% on complex challenges while maintaining or enhancing accuracy. Notably, AdaTIR successfully internalizes reasoning, outperforming baselines by 4.8% on AIME 2024 even when tool access is strictly disabled.
- Abstract(参考訳): TIR(Tool-Integrated Reasoning)は、LLM(Large Language Models)の機能を大幅に向上させたが、現在のエージェントは認知的オフロードを示し、単純なタスクであっても外部ツールを冗長に呼び出す傾向にある。
本稿では,真のエージェントインテリジェンスには,ツールの実行だけでなく,いつ使用するかを理解するための適応的な知恵が必要であることを示唆する。
AdaTIRは,静的ツール呼び出しから内部化の難易度を考慮した推論へパラダイムをシフトするフレームワークである。
AdaTIRは、タスクの複雑さに基づいたツール予算を動的に調整し、複雑なタスクのためのツールを選択的に呼び出しながら、単純なタスクに対する内部推論を行う。
さらに,ツールペナルティが正当性報酬を上回り,不正に不正なロールアウトを負の利点で罰する,符号逆問題を特定する。
そこで我々は, 効率を二次制約として用いながら, 正しさが主目的であることを保証するClipped Advantage Shaping (CAS)を提案する。
実証的な結果は、AdaTIRが単純なタスクで97.6%、複雑な課題で28.2%までツールコールを削減し、精度を維持または向上していることを示している。
特に、AdaTIRは、ツールアクセスが厳密に無効である場合でも、AIME 2024のベースラインを4.8%上回る推論を成功させる。
関連論文リスト
- Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとツールの実行ソリューションの間の構造的マッピングを利用する。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
我々のフレームワークは、異なるモデルアーキテクチャにわたって堅牢なパフォーマンスを示し、追加のトレーニングなしで完全に見えないAPIに一般化することに成功しています。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。