論文の概要: TIDE-Bench: Task-Aware and Diagnostic Evaluation of Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2605.09544v1
- Date: Sun, 10 May 2026 13:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.306096
- Title: TIDE-Bench: Task-Aware and Diagnostic Evaluation of Tool-Integrated Reasoning
- Title(参考訳): TIDE-Bench:ツール統合推論のタスク認識と評価
- Authors: Yize Li, Junzhi Li, Jason Song, Chuxiong Sun, Rui Wang, Changwen Zheng,
- Abstract要約: 我々はツール統合推論手法を評価するための総合的で効率的なベンチマークであるTIDE-Benchを紹介する。
多様なタスク設定を提供し、広く使われている数学的推論と知識集約型QAタスクを2つの新しく設計されたタスクと組み合わせている。
第2に、TIDE-Benchは包括的なタスク対応評価プロトコルを採用し、最終回答の品質、プロセスの信頼性、ツール使用効率、推論コストを共同で測定する。
第3に、TIDE-Benchは、既存のデータセットから低識別インスタンスをフィルタリングすることで、高品質で差別的な評価セットを構築する。
- 参考スコア(独自算出の注目度): 14.200781347796307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated reasoning has emerged as a promising paradigm for enhancing large language models with external computation, retrieval, and execution capabilities. However, the field still lacks a high-quality and unified evaluation benchmark, and existing TIR evaluations remain limited in dataset quality, task diversity, diagnostic comprehensiveness, and evaluation efficiency. In this work, we introduce TIDE-Bench, a holistic and efficient benchmark for evaluating TIR methods, featuring three key advantages. First, it provides diverse task settings, combining widely used mathematical reasoning and knowledge-intensive QA tasks with two newly designed tasks, namely the tool-grounded experimental design task and the dynamic interactive task, to probe models' abilities in complex tool invocation and multi-tool coordination. Second, TIDE-Bench adopts a comprehensive yet task-aware evaluation protocol, jointly measuring final answer quality, process reliability, tool-use efficiency, and inference cost across heterogeneous task settings. Third, TIDE-Bench constructs high-quality and discriminative evaluation sets by filtering low-discrimination instances from existing datasets, substantially reducing evaluation cost while focusing on more challenging samples. Extensive experiments on multiple foundation models and TIR methods reveal persistent bottlenecks in tool grounding, offering insights for future TIR research.
- Abstract(参考訳): ツール統合推論は、外部計算、検索、実行機能を備えた大規模言語モデルを拡張するための有望なパラダイムとして登場した。
しかし、この分野には高品質で統一された評価ベンチマークがなく、既存のTIR評価は、データセットの品質、タスクの多様性、診断の包括性、評価効率に制限されている。
本稿では,TIR法評価のための総合的かつ効率的なベンチマークであるTIDE-Benchを紹介する。
まず、多種多様なタスク設定を提供し、広く使われている数学的推論と知識集約型QAタスクと、ツールグラウンドの実験的設計タスクと動的インタラクティブタスクの2つの新しく設計されたタスクを組み合わせることで、複雑なツール呼び出しとマルチツール調整におけるモデルの能力を調べる。
第2に、TIDE-Benchは包括的なタスク対応評価プロトコルを採用し、最終回答の品質、プロセスの信頼性、ツール使用効率、不均一なタスク設定に対する推論コストを共同で測定する。
第3に、TIDE-Benchは、既存のデータセットから低識別インスタンスをフィルタリングすることで、高品質で差別的な評価セットを構築し、より困難なサンプルに集中しながら、評価コストを大幅に削減する。
複数の基礎モデルとTIR手法に関する大規模な実験は、ツール接地における永続的なボトルネックを明らかにし、将来のTIR研究の洞察を提供する。
関連論文リスト
- AIDABench: AI Data Analytics Benchmark [62.45908988324612]
AIDABenchは、複雑なデータ分析タスクのAIシステムをエンドツーエンドで評価するためのベンチマークである。
AIDABenchは、質問応答、データビジュアライゼーション、ファイル生成という3つのコア機能ディメンションにまたがる600以上の多様なドキュメント分析タスクを含んでいる。
AIDABenchの11の最先端モデルを評価し、プロプライエタリ(Claude Sonnet 4.5、Gemini 3 Pro Previewなど)とオープンソース(Qwen3-Max-2026-01-23-Thinkingなど)の両方を対象とする。
論文 参考訳(メタデータ) (2026-02-27T08:58:05Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks [44.235580821075565]
テストタイムスケーリング(TTS)は、推論中に追加の計算リソースを割り当てることで、大規模言語モデル(LLM)の性能を向上させる。
我々は,多段階複雑なタスクにおけるテスト時間計算-最適スケーリングという,新しい問題を研究する。
本稿では,計算最適割り当てを自律的に検索するLLMエージェントベースのフレームワークであるAgentTTSを提案する。
論文 参考訳(メタデータ) (2025-07-26T19:21:18Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。
ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。
我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-01-02T15:10:52Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。