論文の概要: From Task Solving to Robust Real-World Adaptation in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.02760v1
- Date: Mon, 02 Feb 2026 20:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.06374
- Title: From Task Solving to Robust Real-World Adaptation in LLM Agents
- Title(参考訳): LLMエージェントのタスク解決からロバストな実世界適応へ
- Authors: Pouya Pezeshkpour, Estevam Hruschka,
- Abstract要約: 大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
- 参考スコア(独自算出の注目度): 17.122224644097304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as specialized agents that plan, call tools, and take actions over extended horizons. Yet many existing evaluations assume a "clean interface" where dynamics are specified and stable, tools and sensors are reliable, and success is captured by a single explicit objective-often overestimating real-world readiness. In practice, agents face underspecified rules, unreliable signals, shifting environments, and implicit, multi-stakeholder goals. The challenge is therefore not just solving tasks, but adapting while solving: deciding what to trust, what is wanted, when to verify, and when to fall back or escalate. We stress-test deployment-relevant robustness under four operational circumstances: partial observability, dynamic environments, noisy signals, and dynamic agent state. We benchmark agentic LLMs in a grid-based game with a simple goal but long-horizon execution. Episodes violate clean-interface assumptions yet remain solvable, forcing agents to infer rules, pay for information, adapt to environmental and internal shifts, and act cautiously under noise. Across five state-of-the-art LLM agents, we find large gaps between nominal task-solving and deployment-like robustness. Performance generally degrades as grid size and horizon increase, but rankings are unstable: weaker models can beat stronger ones when strategy matches the uncertainty regime. Despite no explicit instruction, agents trade off completion, efficiency, and penalty avoidance, suggesting partial objective inference. Ablations and feature analyses reveal model-specific sensitivities and failure drivers, motivating work on verification, safe action selection, and objective inference under partial observability, noise, and non-stationarity.
- Abstract(参考訳): 大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
しかし、多くの既存の評価では、ダイナミクスが特定され、安定しており、ツールとセンサーは信頼性があり、成功は1つの明示的な客観的過度な現実的準備性によって捉えられる「クリーンインターフェース」を前提としている。
実際には、エージェントは不特定ルール、信頼できない信号、環境の変化、暗黙のマルチステークホルダーの目標に直面しています。
ですから課題は,単にタスクの解決ではなく,何を信頼するか,何を望むのか,いつ確認するか,いつ後退するか,あるいはエスカレートするか,という課題の解決にあるのです。
我々は, 部分観測可能性, 動的環境, ノイズ信号, 動的エージェント状態の4つの運用条件下での, ストレステストとデプロイメント関連ロバスト性について検討する。
グリッド型ゲームにおけるエージェントLDMを、単純なゴールだが長距離実行でベンチマークする。
エピソードは、きれいなインターフェースの仮定に違反するが、未解決のままであり、エージェントはルールを推測し、情報を求めて支払い、環境や内部の変化に適応し、慎重にノイズの下で行動することを強制する。
最先端のLLMエージェント5つにまたがって、名目上のタスク解決とデプロイメントライクなロバストさの間に大きなギャップがある。
グリッドサイズや水平線が増加するにつれて、パフォーマンスは低下するが、ランキングは不安定である。
明確な指示がないにもかかわらず、エージェントは完了、効率、ペナルティの回避を禁止し、部分的な客観的推論を示唆している。
アブレーションと特徴分析により、モデル固有の感度と障害ドライバ、検証、安全な行動選択、部分観測可能性、ノイズ、非定常性の下での客観的推論の動機付けが明らかにされる。
関連論文リスト
- What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Bayesian Ambiguity Contraction-based Adaptive Robust Markov Decision Processes for Adversarial Surveillance Missions [1.7188280334580195]
コラボレーティブ・コンバット・エアクラフト(CCA)は、自律的な知能、監視、偵察ミッションを可能にするために計画されている。
これらのミッションは、モデルの不確実性と、安全でリアルタイムな意思決定の必要性によって、課題を提起する。
本稿では,CCA を用いた ISR ミッションに適した適応型マルコフ決定処理フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:31:40Z) - MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction [1.3102025155414727]
交通安全システムにおいて,事故重大度予測が重要な役割を担っている。
既存の方法はしばしばモノリシックモデルやブラックボックスプロンプトに依存している。
本稿では,多エージェントルールに基づくLLMエンジンを提案し,その重大性予測タスクを,専門的推論エージェントのチーム間で分解する。
論文 参考訳(メタデータ) (2025-07-07T11:27:49Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。