論文の概要: PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents
- arxiv url: http://arxiv.org/abs/2602.05354v1
- Date: Thu, 05 Feb 2026 06:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.78619
- Title: PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents
- Title(参考訳): PATHWAYS:AI Webエージェントにおける調査とコンテキスト発見の評価
- Authors: Shifat E. Arman, Syed Nazmus Sakib, Tapodhir Karmakar Taton, Nafiul Haque, Shahrear Bin Amin,
- Abstract要約: PATHWAYSは250のマルチステップ決定タスクのベンチマークである。
Webベースのエージェントが、隠れたコンテキスト情報を発見し、正しく使用できるかをテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce PATHWAYS, a benchmark of 250 multi-step decision tasks that test whether web-based agents can discover and correctly use hidden contextual information. Across both closed and open models, agents typically navigate to relevant pages but retrieve decisive hidden evidence in only a small fraction of cases. When tasks require overturning misleading surface-level signals, performance drops sharply to near chance accuracy. Agents frequently hallucinate investigative reasoning by claiming to rely on evidence they never accessed. Even when correct context is discovered, agents often fail to integrate it into their final decision. Providing more explicit instructions improves context discovery but often reduces overall accuracy, revealing a tradeoff between procedural compliance and effective judgement. Together, these results show that current web agent architectures lack reliable mechanisms for adaptive investigation, evidence integration, and judgement override.
- Abstract(参考訳): PATHWAYSは、Webベースのエージェントが隠れたコンテキスト情報を発見し、正しく利用できるかをテストする250のマルチステップ決定タスクのベンチマークである。
クローズドモデルとオープンモデルの両方で、エージェントは通常関連するページをナビゲートするが、少数のケースで決定的な秘密の証拠を回収する。
タスクが誤解を招く表面レベルの信号をオーバーターンする必要がある場合、性能は急速に低下し、ほぼ精度が低下する。
エージェントは、決してアクセスしなかった証拠を頼りにすることで、しばしば調査的推論を幻覚させる。
正しいコンテキストが発見されたとしても、エージェントは最終決定にそれを統合できないことが多い。
より明示的な指示を提供することは、コンテキスト発見を改善するが、全体的な精度を低下させ、手続き的コンプライアンスと効果的な判断のトレードオフを明らかにする。
これらの結果から、現在のWebエージェントアーキテクチャは、適応的な調査、証拠の統合、判断のオーバーライドのための信頼性の高いメカニズムが欠如していることが分かる。
関連論文リスト
- To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis [10.749786847079163]
医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
本稿では,対話型エージェントを提案する。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
論文 参考訳(メタデータ) (2025-11-03T10:21:35Z) - InteractComp: Evaluating Search Agents With Ambiguous Queries [36.05005463045869]
検索エージェントがクエリのあいまいさを認識でき、検索中に積極的に対話できるかどうかを評価するためのベンチマークであるInteractCompを紹介する。
最高のモデルでは71.50%の完全コンテキストにもかかわらず、13.73%の精度しか達成していない。
この停滞は、検索タスク固有の即時フィードバックと相まって、InteractCompは、検索エージェントのインタラクション機能の評価とトレーニングの両方に有用なリソースとなる。
論文 参考訳(メタデータ) (2025-10-28T17:35:54Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。