論文の概要: Hell or High Water: Evaluating Agentic Recovery from External Failures
- arxiv url: http://arxiv.org/abs/2508.11027v1
- Date: Thu, 14 Aug 2025 19:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.651535
- Title: Hell or High Water: Evaluating Agentic Recovery from External Failures
- Title(参考訳): 地獄か高水か:外部障害からのエージェント回復の評価
- Authors: Andrew Wang, Sophia Hager, Adi Asija, Daniel Khashabi, Nicholas Andrews,
- Abstract要約: 我々は,言語エージェントが目的を達成するための代替手段をいかに探すかを研究するために,特殊エージェント計画ベンチマークを開発する。
私たちのベンチマークでは、突然利用不能になった関数など、ワークフロー内の外部障害にエージェントが直面しています。
全体として,言語エージェントは環境フィードバックに応じて,バックアップ計画の定式化と実行に苦慮している。
- 参考スコア(独自算出の注目度): 19.402114652658206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language model agents are applied to real world problems of increasing complexity, they will be expected to formulate plans across large search spaces. If those plans fail for reasons beyond their control, how well do language agents search for alternative ways to achieve their goals? We devise a specialized agentic planning benchmark to study this question. Each planning problem is solved via combinations of function calls. The agent searches for relevant functions from a set of over four thousand possibilities, and observes environmental feedback in the form of function outputs or error messages. Our benchmark confronts the agent with external failures in its workflow, such as functions that suddenly become unavailable. At the same time, even with the introduction of these failures, we guarantee that the task remains solvable. Ideally, an agent's performance on the planning task should not be affected by the presence of external failures. Overall, we find that language agents struggle to formulate and execute backup plans in response to environment feedback. While state-of-the-art models are often able to identify the correct function to use in the right context, they struggle to adapt to feedback from the environment and often fail to pursue alternate courses of action, even when the search space is artificially restricted. We provide a systematic analysis of the failures of both open-source and commercial models, examining the effects of search space size, as well as the benefits of scaling model size in our setting. Our analysis identifies key challenges for current generative models as well as promising directions for future work.
- Abstract(参考訳): 言語モデルエージェントは複雑化の現実的な問題に適用されるため、大規模な検索空間にまたがる計画が定式化されることが期待できる。
これらの計画が制御不能な理由で失敗した場合、言語エージェントは目標を達成するための代替手段をどの程度探すのか?
この問題を研究するために,特殊エージェント計画ベンチマークを考案する。
各計画問題は関数呼び出しの組み合わせによって解決される。
エージェントは、400を超える可能性の集合から関連する機能を探索し、関数出力またはエラーメッセージの形式で環境フィードバックを観測する。
私たちのベンチマークでは、突然利用不能になった関数など、ワークフロー内の外部障害にエージェントが直面しています。
同時に、これらの障害が導入されたとしても、タスクが引き続き解決可能であることを保証します。
理想的には、計画タスクにおけるエージェントのパフォーマンスは、外部の障害の存在の影響を受けないようにすべきである。
全体として,言語エージェントは環境フィードバックに応じて,バックアップ計画の定式化と実行に苦慮している。
最先端のモデルは、正しいコンテキストで使用する適切な関数を識別できることが多いが、彼らは環境からのフィードバックに適応するのに苦労し、検索空間が人工的に制限された場合でも、代替の行動コースを追求できないことが多い。
本稿では,オープンソースモデルと商用モデルの両方の失敗のシステマティック分析を行い,検索空間サイズの影響と,我々の設定におけるスケールモデルサイズの有用性について検討する。
本分析では,現在の生成モデルにおける鍵となる課題と今後の研究への有望な方向性を明らかにした。
関連論文リスト
- Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [18.129031749321058]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
広く採用されているにもかかわらず、これらのエージェントの内部決定プロセスはほとんど解明されていない。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - Foundation Models at Work: Fine-Tuning for Fairness in Algorithmic Hiring [5.482898079941062]
対象の微調整に強化学習を活用するAutoRefineを提案する。
本稿では,言語バイアスがレコメンデーションシステムに影響を及ぼすアルゴリズム的採用プラットフォームにおいて発生する問題の方法を示す。
本モデルは,多様性と公正度基準を満たすために,職務記述におけるバイアスを検出し,規制する。
論文 参考訳(メタデータ) (2025-01-13T13:36:17Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [52.34892973785117]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。
我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。
本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文 参考訳(メタデータ) (2023-05-25T04:05:08Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。