論文の概要: Long-Horizon Plan Execution in Large Tool Spaces through Entropy-Guided Branching
- arxiv url: http://arxiv.org/abs/2604.12126v1
- Date: Mon, 13 Apr 2026 23:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.154937
- Title: Long-Horizon Plan Execution in Large Tool Spaces through Entropy-Guided Branching
- Title(参考訳): エントロピー誘導分岐による大型工具空間における長期計画実行
- Authors: Rongzhe Wei, Ge Shi, Min Cheng, Na Zhang, Pan Li, Sarthak Ghosh, Vaibhav Gorde, Leman Akoglu,
- Abstract要約: 大規模言語モデル(LLM)は、ツール拡張エージェントを著しく拡張し、APIインタラクションによる自律的推論を可能にする。
巨大なツールライブラリ内でのマルチステップタスクの実行は、2つの重大なボトルネックのため、依然として困難である。
まず,ツール統合エージェントの自動評価のための大規模コンテキスト認識ベンチマークSLATEを紹介する。
本研究では,予測エントロピーが高い決定分岐を動的に拡張する不確実性を考慮した探索アルゴリズムであるエントロピー誘導分岐(EGB)を提案する。
- 参考スコア(独自算出の注目度): 21.203929965634853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have significantly advanced tool-augmented agents, enabling autonomous reasoning via API interactions. However, executing multi-step tasks within massive tool libraries remains challenging due to two critical bottlenecks: (1) the absence of rigorous, plan-level evaluation frameworks and (2) the computational demand of exploring vast decision spaces stemming from large toolsets and long-horizon planning. To bridge these gaps, we first introduce SLATE (Synthetic Large-scale API Toolkit for E-commerce), a large-scale context-aware benchmark designed for the automated assessment of tool-integrated agents. Unlike static metrics, SLATE accommodates diverse yet functionally valid execution trajectories, revealing that current agents struggle with self-correction and search efficiency. Motivated by these findings, we next propose Entropy-Guided Branching (EGB), an uncertainty-aware search algorithm that dynamically expands decision branches where predictive entropy is high. EGB optimizes the exploration-exploitation trade-off, significantly enhancing both task success rates and computational efficiency. Extensive experiments on SLATE demonstrate that our dual contribution provides a robust foundation for developing reliable and scalable LLM agents in tool-rich environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツール拡張エージェントを著しく拡張し、APIインタラクションによる自律的推論を可能にする。
しかし,1)厳密で計画レベルの評価フレームワークの欠如,(2)大規模ツールセットと長期計画による大規模意思決定空間の探索の計算要求,という2つの重大なボトルネックのため,大規模ツールライブラリ内でのマルチステップタスクの実行は依然として困難である。
これらのギャップを埋めるために、私たちは、ツール統合エージェントの自動評価のために設計された大規模コンテキスト認識ベンチマークであるSLATE(Synthetic Large-scale API Toolkit for E-Commerce)を紹介した。
静的メトリクスとは異なり、SLATEは多様だが機能的に有効な実行トラジェクトリに対応しており、現在のエージェントが自己補正と探索効率に苦労していることが分かる。
次に,予測エントロピーが高い決定枝を動的に拡張する不確実性を考慮した探索アルゴリズムであるEntropy-Guided Branching (EGB)を提案する。
EGBは探索と探索のトレードオフを最適化し、タスクの成功率と計算効率の両方を大幅に向上させる。
SLATEに関する大規模な実験により、我々の2つの貢献は、ツールリッチ環境で信頼性が高くスケーラブルなLLMエージェントを開発するための堅牢な基盤を提供することを示した。
関連論文リスト
- Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces [5.870572929943109]
ATLASは、小さな言語モデルが大規模ツールスペース環境で効果的に動作できるようにする強化微調整フレームワークである。
まず、文脈制御と実行構造を学習可能な決定として扱う。
第2に,タスク成功を構造化されたタスク整合基準に分解する強化微調整を提案する。
論文 参考訳(メタデータ) (2026-03-05T20:29:12Z) - Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents [54.18201810286764]
LLM(Large Language Models)に基づくツール利用エージェントは、数学的推論やマルチホップ質問応答といったタスクに優れる。
長い道のりでは、エージェントはしばしば過度で低品質なツールコールをトリガーし、レイテンシを増大させ、推論性能を低下させる。
本稿では,エントロピー低減を監視信号として使用し,ツール使用行動の最適化ニーズに対処する2つの報奨戦略を設計する。
論文 参考訳(メタデータ) (2026-02-02T12:52:14Z) - MAXS: Meta-Adaptive Exploration with LLM Agents [48.04723638253802]
MaxSはLarge Language Model (LLM) Agentsをベースにしたメタ適応推論フレームワークである。
MAXSは、いくつかのステップを進む推論パスを拡張するために、ルックアヘッド戦略を採用している。
ステップの一貫性のばらつきとステップ間のトレンドスロープを組み合わせることで、安定で一貫性があり、高い値の推論ステップを共同で選択する。
論文 参考訳(メタデータ) (2026-01-14T07:48:00Z) - WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning [82.12501258760814]
大規模言語モデル(LLM)ベースのエージェントは、Web情報検索において強力な能力を示している。
Plan anchorは、長期にわたるWeb推論タスクにおいて、最初の推論ステップが下流の動作に不均等に影響を与えている場所です。
計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-06T16:36:40Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。
このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。
生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文 参考訳(メタデータ) (2025-11-23T03:59:14Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。