論文の概要: When Agents Overtrust Environmental Evidence: An Extensible Agentic Framework for Benchmarking Evidence-Grounding Defects in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.08828v2
- Date: Tue, 12 May 2026 08:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.935822
- Title: When Agents Overtrust Environmental Evidence: An Extensible Agentic Framework for Benchmarking Evidence-Grounding Defects in LLM Agents
- Title(参考訳): エージェントが環境証拠を過信する場合: LLMエージェントのエビデンス回避欠陥をベンチマークするための拡張可能なエージェントフレームワーク
- Authors: Strick Sheng, Ziyue Wang, Liyi Zhou,
- Abstract要約: 大規模言語モデルエージェントは、ファイル、Webページ、API、ログを公開する環境対応の足場を通じて、ますます運用されるようになる。
環境基盤化は、文脈入力、証拠証明、鮮度検査、検証ポリシー、行動ゲーティング、モデル推論を含むシステムレベルの問題である。
この障害モードをベンチマークするためのエージェントフレームワークであるEnvTrustBenchを紹介します。
- 参考スコア(独自算出の注目度): 7.383366380709273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model agents increasingly operate through environment-facing scaffolds that expose files, web pages, APIs, and logs. These observations influence tool use, state tracking, and action sequencing, yet their reliability and authority are often uncertain. Environmental grounding is therefore a systems-level problem involving context admission, evidence provenance, freshness checking, verification policy, action gating, and model reasoning. Existing agent benchmarks mainly evaluate task capability or specific attacks such as prompt injection and memory poisoning, but they under-specify a fundamental reliability question: whether agents remain grounded in the true environment state when observations are stale, incorrect, or malicious. We introduce EnvTrustBench, an agentic framework for benchmarking this failure mode. We define an evidence-grounding defect (EGD) as a behavioral failure in which an agent treats an environment-facing claim as sufficient evidence for action without resolving it against available current evidence, leading to a task-incorrect false path under the true environment state. Given a task scenario, EnvTrustBench generates the workspace, environment, agent-facing objective, and validation oracle, executes the evaluated agent, records its action-observation trajectory and final state, and applies the oracle to produce a verdict. Using 6 LLM backbones and 5 widely used scaffolds, we evaluate 55 generated cases across 11 task scenarios, with each scenario expanded through five feedback-guided generation iterations. Results show that EGDs consistently emerge across operational workflows, highlighting environmental grounding as a core agent reliability problem with important security implications.
- Abstract(参考訳): 大規模言語モデルエージェントは、ファイル、Webページ、API、ログを公開する環境対応の足場を通じて、ますます運用されるようになる。
これらの観察は、ツールの使用、状態追跡、アクションシークエンシングに影響を与えるが、信頼性と権威はしばしば不確実である。
環境基盤化は、文脈入力、証拠証明、鮮度検査、検証ポリシー、行動ゲーティング、モデル推論を含むシステムレベルの問題である。
既存のエージェントベンチマークは、主にタスク能力や、プロンプトインジェクションやメモリ中毒のような特定の攻撃を評価するが、それらは基本的な信頼性の問題である。
この障害モードをベンチマークするためのエージェントフレームワークであるEnvTrustBenchを紹介します。
本研究では,エビデンス・グラウンド・欠陥(EGD)を,エージェントが利用可能な現在のエビデンスに対して解決することなく,環境に面したクレームを十分なエビデンスとして扱う行動障害として定義する。
タスクのシナリオが与えられたら、EnvTrustBenchはワークスペース、環境、エージェントが対象とする目標、検証のオラクルを生成し、評価されたエージェントを実行し、そのアクション・オブザーブメント・トラジェクトリと最終状態を記録し、オラクルを適用して判断を生成する。
6つのLLMバックボーンと5つの広く使われている足場を用いて、11のタスクシナリオにわたる55のケースを評価し、各シナリオは5つのフィードバック誘導世代イテレーションによって拡張された。
その結果、EGDは運用ワークフロー全体にわたって一貫して出現し、重要なセキュリティ上の意味を持つ中核的エージェント信頼性問題として環境基盤が強調された。
関連論文リスト
- Towards Security-Auditable LLM Agents: A Unified Graph Representation [22.355591892994642]
本稿ではエージェントセキュリティ監査のための統合構造表現であるエージェントBOMを提案する。
エージェントBOMは、クロスセッションメモリ中毒やツール誤用など、ステルス攻撃チェーンを再構築できることを示す。
Agent-BOMは複雑なエージェントエコシステムにおける根本原因分析とセキュリティ適応のための統一的で監査可能な基盤を提供する。
論文 参考訳(メタデータ) (2026-05-07T18:14:29Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - AgentTrace: A Structured Logging Framework for Agent System Observability [0.0]
AgentTraceは、このギャップを埋めるために設計された動的可観測性とテレメトリフレームワークである。
従来のロギングシステムとは異なり、AgentTraceは継続的でイントロスペクタブルなトレースキャプチャを強調している。
我々の研究は、AgentTraceがより信頼性の高いエージェントデプロイメント、きめ細かいリスク分析、情報信頼の校正を可能にする方法を強調している。
論文 参考訳(メタデータ) (2026-02-07T04:04:59Z) - From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文 参考訳(メタデータ) (2026-02-02T20:10:40Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments? [30.170538068791263]
VLM(Vision-Language Models)は,モバイルグラフィカルユーザインターフェース(GUI)をナビゲートする自律エージェントとして,ますます普及している。
環境注入は、GUIに直接敵のUI要素を挿入することで、エージェントの視覚的知覚を損なう。
GhostEI-Benchは、動的に実行可能な環境で環境注入攻撃を受けるモバイルエージェントを評価するための最初のベンチマークである。
論文 参考訳(メタデータ) (2025-10-23T08:33:24Z) - Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions [50.5976989558411]
本稿では,GUI環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含んでいる、という一般的なシナリオが提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。