論文の概要: AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.07926v1
- Date: Fri, 08 May 2026 15:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.183428
- Title: AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents
- Title(参考訳): AgentEscapeBench: LLMエージェントのアウトオブドメインツール周辺推論の評価
- Authors: Zhengkang Guo, Yiyang Li, Lin Qiu, Xiaohua Wang, Jingwen Xv, Dongyu Ru, Xiaoyu Li, Xiaoqing Zheng, Xuezhi Cao, Xunliang Cai,
- Abstract要約: AgentEscapeBenchは、エージェントが明示的な長距離依存性制約の下で新しいツールの使用手順を推論、実行、修正できるかどうかをテストする。
16個のLDMエージェントとヒトの被験者による実験では、依存性の深さが増加するにつれて性能が急激に低下することが示された。
軌道解析は、主に長距離状態追跡、手がかり付着、中間相対伝播における故障をモデル化する。
- 参考スコア(独自算出の注目度): 35.967227261886435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM-based agents increasingly rely on external tools, it is important to evaluate their ability to sustain tool-grounded reasoning beyond familiar workflows and short-range interactions. We introduce AgentEscapeBench, an escape-room-style benchmark that tests whether agents can infer, execute, and revise novel tool-use procedures under explicit long-range dependency constraints. Each task defines a directed acyclic dependency graph over tools and items, requiring agents to invoke real external functions, track hidden state revealed incrementally, propagate intermediate results, and submit a deterministically verifiable final answer. AgentEscapeBench includes 270 instances across five difficulty tiers and supports fully automated evaluation. Experiments with sixteen LLM agents and human participants show that performance drops sharply as dependency depth increases: humans decline from 98.3% success at difficulty-5 to 80.0% at difficulty-25, while the best model drops from 90.0% to 60.0%. Trajectory analysis attributes model failures mainly to breakdowns in long-range state tracking, clue adherence, and intermediate-result propagation. These findings suggest that current agents can often handle local tool use but still struggle with deep contextual dependencies. We hope AgentEscapeBench can serve as a diagnostic testbed for measuring current agent capabilities and informing future training efforts toward more robust general-purpose reasoning, action, and adaptation.
- Abstract(参考訳): LLMベースのエージェントは、ますます外部ツールに依存しているため、慣れ親しんだワークフローや短距離インタラクションを超えて、ツール基底推論を維持する能力を評価することが重要である。
我々はAgentEscapeBenchを紹介した。AgentEscapeBenchはエスケープルームスタイルのベンチマークで、エージェントが明示的な長距離依存性制約の下で新しいツールの使用手順を推論し、実行し、修正できるかどうかをテストする。
各タスクは、ツールやアイテムに対する有向非巡回依存グラフを定義し、エージェントは実際の外部関数を起動し、隠された状態を段階的に追跡し、中間結果を伝達し、決定論的に検証可能な最終回答を提出する必要がある。
AgentEscapeBenchには5つの困難層にわたる270のインスタンスが含まれ、完全な自動評価をサポートする。
16人のLDMエージェントとヒトの被験者による実験では、依存性の深さが増加するにつれて性能が急激に低下し、人類は難易度で98.3%から難易度で80.0%に低下し、最良のモデルは90.0%から60.0%に低下した。
軌道解析は、主に長距離状態追跡、手がかり付着、中間相対伝播における故障をモデル化する。
これらの結果は、現在のエージェントは、しばしばローカルツールの使用を処理できるが、深いコンテキスト依存に苦慮していることを示唆している。
我々は、AgentEscapeBenchが、現在のエージェント能力を測定し、より堅牢な汎用的推論、アクション、適応に向けた将来のトレーニング活動を伝えるための診断テストベッドとして機能することを願っている。
関連論文リスト
- Beyond the Black Box: Interpretability of Agentic AI Tool Use [0.0]
本稿では,スパースオートエンコーダと線形プローブ上に構築された機械論的・解釈可能性ツールキットを提案する。
フレームワークは各アクションの前にモデル状態を読み出し、ツールが必要かどうか、そして次のツールアクションがいかに適切かの両方を推測する。
我々は、NVIDIA Nemotron関数呼び出しデータセットから多段階の軌道上のプローブをトレーニングし、GPT-OSS 20BとGemma 3 27Bモデルに同じワークフローを適用する。
論文 参考訳(メタデータ) (2026-05-07T19:47:30Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents [40.88941407116349]
本稿では,大規模言語モデル(LLM)エージェントにおけるデータオーバー露光(DOE)リスクを検出するための,最初の自動化フレームワークであるAgentRaftを紹介する。
実世界のエージェントツール6,675のテスト環境でAgentRaftを評価した。
論文 参考訳(メタデータ) (2026-03-08T09:40:54Z) - FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents [25.60249598832918]
FT-Dojoは5つのドメインにわたる13のタスクからなる対話型環境である。
我々は、評価駆動フィードバックを活用することで、人間の専門家を模倣する自律システムFT-Agentを開発した。
論文 参考訳(メタデータ) (2026-03-02T10:37:11Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - More Vulnerable than You Think: On the Stability of Tool-Integrated LLM Agents [24.84276066855418]
本研究では,ツール実行プロセス全体を通して,エージェントがエラーに対して脆弱であるかどうかを検討する。
エージェントは各段階でエラーの影響を受けやすく,オープンソースモデルに基づくエージェントは,プロプライエタリモデルに基づくエージェントよりも脆弱である。
論文 参考訳(メタデータ) (2025-06-27T07:13:29Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。