論文の概要: Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2605.28532v1
- Date: Wed, 27 May 2026 14:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.114021
- Title: Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
- Title(参考訳): エージェントは自分ができないことを知っているか? : ツール・ユース・エージェントのフィージビリティ・アウェアネスの評価
- Authors: Liang Cheng, Mingsheng Cai, Jiuming Jiang, Luo Mai,
- Abstract要約: エージェントタスクを構築するための自動パイプラインであるFeasiGenを提案する。
提案手法は,複数のエージェントシステム間で成功した実行からツールコールトレースを抽出する。
人間による検証では、構築したタスクの不可能なアノテーションが94%以上の精度で達成されている。
- 参考スコア(独自算出の注目度): 2.9489426115388793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-using agents often incur substantial computational cost due to long reasoning chains and iterative tool usage. In practical scenarios, many tasks become infeasible under constrained tool environments, where the capabilities required for successful task completion are unavailable. Detecting infeasible tasks and stopping execution early can significantly reduce unnecessary execution cost. In this work, we propose FeasiGen, an automatic pipeline for constructing infeasible agent tasks by identifying the critical tools required for successful task completion. Our approach extracts tool-calling traces from successful executions across multiple agent systems, identifies critical tools consistently shared across diverse execution strategies, and masks these tools to automatically transform solvable tasks into infeasible ones. Human verification confirms that the infeasibility annotations for our constructed tasks achieve over 94% accuracy. We further introduce feasibility-aware evaluation metrics for measuring whether agents can recognize infeasible tasks and stop execution appropriately. Extensive evaluations across nine models reveal substantially weak infeasibility detection ability, with false continue rate reaching up to 73.9%. We further observe that multi-agent architectures significantly reduce erroneous execution under infeasible conditions.
- Abstract(参考訳): ツール使用エージェントは、長い推論チェーンと反復ツールの使用のために、かなりの計算コストを発生させることが多い。
現実的なシナリオでは、多くのタスクは制約されたツール環境下では実現不可能になり、タスクの完了に要する能力は利用できない。
不可能なタスクの検出と実行の早期停止は、不要な実行コストを大幅に削減する。
本研究では,フェーシゲン(FeasiGen)を提案する。フェーシゲン(FeasiGen)は,タスク完了に要する重要なツールを識別し,実現不可能なエージェントタスクを構築するための自動パイプラインである。
提案手法では,複数のエージェントシステム上で成功した実行からツールコールトレースを抽出し,さまざまな実行戦略間で一貫して共有される重要なツールを特定し,これらのツールを隠蔽して,解決可能なタスクを非実用的なタスクに自動変換する。
人間による検証では、構築したタスクの不可能なアノテーションが94%以上の精度で達成されている。
さらに、エージェントが実行不可能なタスクを認識し、適切に実行を停止できるかどうかを測定するために、実行可能性を考慮した評価指標を導入する。
9つのモデルにまたがる大規模な評価では、偽の継続速度が73.9%に達するという、かなり弱い不実現性検出能力を示している。
さらに,マルチエージェントアーキテクチャは,不可能な条件下での誤実行を著しく低減する。
関連論文リスト
- From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation [45.37258918150899]
本稿では,操作タスクを有向タスクグラフとしてモデル化するエージェントシステムであるAgentChordを紹介する。
実行前に、このグラフには、コンテキスト対応の修正動作を指定する予測リカバリブランチが組み込まれている。
多様な長距離双方向操作タスクに関する実証研究は、AgentChordが成功率と実行効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T11:00:45Z) - AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents [35.967227261886435]
AgentEscapeBenchは、エージェントが明示的な長距離依存性制約の下で新しいツールの使用手順を推論、実行、修正できるかどうかをテストする。
16個のLDMエージェントとヒトの被験者による実験では、依存性の深さが増加するにつれて性能が急激に低下することが示された。
軌道解析は、主に長距離状態追跡、手がかり付着、中間相対伝播における故障をモデル化する。
論文 参考訳(メタデータ) (2026-05-08T15:59:27Z) - On the Reliability of Computer Use Agents [47.20065484006984]
コンピュータ利用エージェントの信頼性の低下の原因を3つの要因から検討する。
信頼性は、タスクの指定方法と、エージェントの動作が実行毎に変化する方法の両方に依存します。
論文 参考訳(メタデータ) (2026-04-20T05:59:04Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents [35.76774274440008]
STING(Sequential Testing of Illicit N-step Goal execution)は、自動化された再チームのフレームワークである。
良質なペルソナに接地されたステップバイステップの不正計画を構築し、適応的なフォローアップでターゲットエージェントを反復的にプローブする。
本稿では,マルチターン・リピートをタイム・ツー・ファースト・ジェイルブレイク確率変数としてモデル化する分析フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T10:31:19Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - Divergence-Based Domain Transferability for Zero-Shot Classification [78.55044112903148]
事前訓練されたニューラルネットワークモデルから学習パターンを転送することで、さまざまな言語ベースのタスクにおける効果が大幅に向上することが示されている。
中間タスクが目的タスクと十分に関係している場合、中間タスクのさらなるチューニングにより、さらなるパフォーマンス上のメリットが示される。
しかし、関連するタスクの特定方法はオープンな問題であり、効果的なタスクの組み合わせをブルートフォースで探すのは非常に高価である。
論文 参考訳(メタデータ) (2023-02-11T16:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。