論文の概要: Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories
- arxiv url: http://arxiv.org/abs/2605.29893v1
- Date: Thu, 28 May 2026 13:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.337105
- Title: Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories
- Title(参考訳): 冗長か必要か : エージェント軌道における冗長ステップ検出のためのベンチマーク
- Authors: Minyang Hu, Bo Yang, Zhinuo Zhou, Jiachen Liang, Guo Jiahao, Yiyang Yin, Xiongwei Han,
- Abstract要約: 既存の評価プロトコルは、主にタスクの成功に焦点を当てており、エージェントの振る舞いの重要な側面を見下ろしている。
本研究では,エージェント・トラジェクトリに対するtextbfredundant Step Detection という新たな研究領域を提案し,定式化する。
RedundancyBenchは、慎重に注釈付けされた軌跡を持つ多様なタスクを含む新しいベンチマークである。
- 参考スコア(独自算出の注目度): 10.320757396853304
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based agents have demonstrated strong capabilities in solving complex tasks through multi-step reasoning and tool use. However, existing evaluation protocols primarily focus on task success, overlooking a critical aspect of agent behavior: execution efficiency. In practice, agent trajectories often contain redundant steps that consume substantial resources while contributing little to task completion. In this work, we propose and formulate a new research area: \textbf{redundant step detection} for agent trajectories. To support this initiative, we introduce \textbf{RedundancyBench}, a new benchmark that contains diverse tasks with carefully annotated trajectories, where each step is labeled according to its contribution to task completion. Using RedundancyBench, we develop and evaluate 3 representative methods to answer whether a step within trajectory is redundant or necessary. Our results show that even the best-performing method achieves only 24.88\% score in detecting redundant steps, while some methods perform worse than random guessing. These results highlight the task's complexity and the need for further research in this area. \footnote{Code and dataset in this paper are both available in \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench}.}
- Abstract(参考訳): LLMをベースとしたエージェントは、多段階推論とツール利用によって複雑なタスクを解く強力な能力を示した。
しかし、既存の評価プロトコルは主にタスクの成功に焦点を当てており、エージェントの振る舞いの重要な側面である実行効率を見下ろしている。
実際にはエージェント・トラジェクトリは、タスクの完了にはほとんど貢献せず、かなりのリソースを消費する冗長なステップを含むことが多い。
本研究では,エージェント軌道に対する新しい研究領域である「textbf{redundant step detection」を提案し,定式化する。
このイニシアチブをサポートするために,各ステップがタスク完了への貢献に応じてラベル付けされる,注意深く注釈付けされたトラジェクトリを含む多様なタスクを含む,新しいベンチマークである‘textbf{RedundancyBench} を紹介した。
冗長ベンチを用いて、軌道内のステップが冗長であるか否かを問う3つの代表的手法を開発し、評価する。
提案手法は, 冗長なステップの検出において, 24.88 % のスコアしか得られないが, ランダムな推定よりも性能が劣る手法もある。
これらの結果は、タスクの複雑さと、この分野におけるさらなる研究の必要性を浮き彫りにしている。
この論文の \footnote{Code とデータセットはどちらも \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench} で公開されている。
※
関連論文リスト
- AgentSearchBench: A Benchmark for AI Agent Search in the Wild [21.739444037726418]
本稿では,エージェント検索のための大規模ベンチマークであるAgentSearchBenchを紹介する。
このベンチマークは、エージェント検索を検索として形式化し、実行可能タスククエリと高レベルタスク記述の両方で問題を再分類する。
実行認識型探索を含む軽量な行動信号は、ランキング品質を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2026-04-24T10:53:54Z) - Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [35.30497528897595]
Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
論文 参考訳(メタデータ) (2026-04-03T13:02:01Z) - Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents [30.48395228595732]
Aresは、マルチステップエージェントタスク用に調整された、ステップごとの動的推論作業選択のためのフレームワークである。
我々は、ステップ完了に要する最小の推論労力を識別するデータ生成パイプラインを開発する。
ツール使用エージェントのTAU-Bench,ディープ検索エージェントのBrowseComp-Plus,WebエージェントのWebArenaなど,さまざまなエージェントタスクに対してAlesを評価した。
論文 参考訳(メタデータ) (2026-03-09T03:17:29Z) - Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Transformer-based assignment decision network for multiple object tracking [2.2920634931825803]
本稿では,データアソシエーションに取り組むトランスフォーマーベースのアサインメント決定ネットワーク(TADN)について,推論中に明示的な最適化を必要とせずに紹介する。
提案手法は,トラッカーとしての単純な性質にもかかわらず,ほとんどの評価指標において高い性能を示す。
論文 参考訳(メタデータ) (2022-08-06T19:47:32Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。