論文の概要: ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context
- arxiv url: http://arxiv.org/abs/2603.01357v1
- Date: Mon, 02 Mar 2026 01:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.643252
- Title: ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context
- Title(参考訳): ASTRA-bench: 個人ユーザコンテキストによるツール利用エージェント推論とアクションプランニングの評価
- Authors: Zidi Xiu, David Q. Sun, Kevin Cheng, Maitrik Patel, Josh Date, Yizhe Zhang, Jiarui Lu, Omar Attia, Raviteja Vemulapalli, Oncel Tuzel, Meng Cao, Samy Bengio,
- Abstract要約: 次世代AIは、膨大な個人データ、多様なツール、多段階推論を管理する必要がある。
AsTRA-benchは対話型ツールボックスと複雑なユーザインテントで時間進化する個人コンテキストを統一するベンチマークである。
- 参考スコア(独自算出の注目度): 32.312958901376525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Next-generation AI must manage vast personal data, diverse tools, and multi-step reasoning, yet most benchmarks remain context-free and single-turn. We present ASTRA-bench (Assistant Skills in Tool-use, Reasoning \& Action-planning), a benchmark that uniquely unifies time-evolving personal context with an interactive toolbox and complex user intents. Our event-driven pipeline generates 2,413 scenarios across four protagonists, grounded in longitudinal life events and annotated by referential, functional, and informational complexity. Evaluation of state-of-the-art models (e.g., Claude-4.5-Opus, DeepSeek-V3.2) reveals significant performance degradation under high-complexity conditions, with argument generation emerging as the primary bottleneck. These findings expose critical limitations in current agents' ability to ground reasoning within messy personal context and orchestrate reliable multi-step plans. We release ASTRA-bench with a full execution environment and evaluation scripts to provide a diagnostic testbed for developing truly context-aware AI assistants.
- Abstract(参考訳): 次世代AIは、膨大な個人データ、多様なツール、多段階推論を管理する必要があるが、ほとんどのベンチマークは、コンテキストフリーでシングルターンのままである。
AsTRA-bench(Assistant Skills in Tool-use, Reasoning \& Action-planning)は、対話型ツールボックスと複雑なユーザ意図で、時間進化する個人コンテキストを一意に統一するベンチマークである。
私たちのイベント駆動パイプラインは、4つの主人公にまたがる2,413のシナリオを生成します。
最先端モデル(例えば、Claude-4.5-Opus、DeepSeek-V3.2)の評価は、高複雑性条件下での大幅な性能劣化を示し、引数生成が主要なボトルネックとなる。
これらの知見は、現状のエージェントが、混乱した個人的な状況の中で推論を基礎にし、信頼性の高い多段階計画を編成する能力において、重大な制限を呈している。
我々はASTRA-benchをフル実行環境と評価スクリプトでリリースし、真にコンテキスト対応のAIアシスタントを開発するための診断テストベッドを提供する。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - SIT-Graph: State Integrated Tool Graph for Multi-Turn Agents [35.85800795225018]
State Integrated Tool Graph (SIT-Graph)は、エピソードとプロシージャメモリを統合した人間の意思決定にインスパイアされている。
推論時に、SIT-Graphは、エピソード的リコールと手続き的実行の間の人間のようなバランスを可能にする。
複数のステートフルなマルチターンツール使用ベンチマークによる実験は、SIT-Graphが強いメモリベースとグラフベースのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-08T08:27:24Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment [32.345011712015435]
AIエージェントの既存のベンチマークは、シングルコントロール環境をシミュレートする。
我々は$tau2$-benchを導入し、エージェントとユーザの両方が、共有された動的な環境で動くツールを活用しています。
特に,エージェントが非ユーザからデュアルコントロールに移行すると,パフォーマンスが著しく低下する。
論文 参考訳(メタデータ) (2025-06-09T17:52:18Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges [30.68589269821412]
既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。
ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:36:13Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。