論文の概要: The Synthetic Web: Adversarially-Curated Mini-Internets for Diagnosing Epistemic Weaknesses of Language Agents
- arxiv url: http://arxiv.org/abs/2603.00801v1
- Date: Sat, 28 Feb 2026 20:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.365716
- Title: The Synthetic Web: Adversarially-Curated Mini-Internets for Diagnosing Epistemic Weaknesses of Language Agents
- Title(参考訳): 合成Web:言語エージェントのてんかん弱さ診断のための逆算型ミニネット
- Authors: Shrey Shah, Levent Ozgur,
- Abstract要約: 言語エージェントは、様々なソースから情報を検索し、閲覧し、合成するWeb対応システムとしてますます機能する。
これらの情報源は信頼できない、あるいは敵対的な内容を含むことができ、敵のランク付けに対するエージェントの堅牢性はいまだに理解されていない。
提案するSynthetic Web Benchmarkは, 何千ものハイパーリンク記事と, 信頼性と事実性に関する基礎的なラベルから構成される手続き的に生成された環境である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents increasingly act as web-enabled systems that search, browse, and synthesize information from diverse sources. However, these sources can include unreliable or adversarial content, and the robustness of agents to adversarial ranking - where misleading information appears prominently in search results - remains poorly understood. Existing benchmarks evaluate functional navigation or static factuality but cannot causally isolate this vulnerability, and current mitigation strategies for retrieval-augmented generation remain largely untested under such conditions. We introduce Synthetic Web Benchmark, a procedurally generated environment comprising thousands of hyperlinked articles with ground-truth labels for credibility and factuality, process-level interaction traces, and contamination filtering to eliminate training-data leakage. By injecting a single high-plausibility misinformation article into a controllable search rank, we measure the causal effect of adversarial exposure in six frontier models. The results reveal catastrophic failures: accuracy collapses despite unlimited access to truthful sources, with minimal search escalation and severe miscalibration. These findings expose fundamental limitations in how current frontier models handle conflicting information, with immediate implications for deployment in high-stakes domains. Our benchmark enables systematic analysis of these failure modes and provides a controlled testbed for evaluating mitigation strategies under adversarial ranking - a gap in current research. This work establishes a reproducible baseline for developing search-robust and epistemically humble agents capable of resisting manipulation in high-stakes domains.
- Abstract(参考訳): 言語エージェントは、様々なソースから情報を検索し、閲覧し、合成するWeb対応システムとしてますます機能する。
しかし、これらの情報源には信頼できない、あるいは敵対的な内容が含まれており、検索結果に誤解を招く情報が顕著に現れる敵のランキングに対するエージェントの頑健さはいまだに理解されていない。
既存のベンチマークでは、機能的なナビゲーションや静的な事実性を評価しているが、この脆弱性を慎重に分離することはできない。
提案するSynthetic Web Benchmarkは,何千ものハイパーリンク記事と,信頼度と事実性,プロセスレベルのインタラクショントレース,汚染フィルタリングを併用して,トレーニングデータ漏洩を解消する,手続き的に生成された環境である。
6つのフロンティアモデルにおいて、1つの高可読性誤報項目を制御可能な探索ランクに注入することにより、対向露光の因果効果を測定する。
その結果、真理に満ちた情報源への無制限アクセスにもかかわらず精度が低下し、検索エスカレーションが最小限に抑えられ、誤校正が厳しくなるという破滅的な失敗が判明した。
これらの発見は、現在のフロンティアモデルが競合する情報を扱う方法の根本的な制限を明らかにし、ハイテイクなドメインへの展開に即座に影響する。
本ベンチマークは,これらの障害モードの系統的解析を可能にし,敵のランク付けによる緩和戦略を評価するための制御されたテストベッドを提供する。
本研究は,高吸収領域での操作に抵抗できる探索的および認識論的に謙虚なエージェントを開発するための再現可能なベースラインを確立する。
関連論文リスト
- Deep Learning for Contextualized NetFlow-Based Network Intrusion Detection: Methods, Data, Evaluation and Deployment [5.402853794565817]
本稿では,フローベース侵入検知のための文脈認識深層学習に関する最近の研究を合成する。
既存の手法を時間的文脈,グラフあるいは関係文脈,マルチモーダルコンテキスト,マルチコンセンサスコンテキストを含む4次元分類に分類する。
我々は、時間的リーク、データ分割、データセット設計上の欠陥、限られたデータセットの多様性、弱いデータセットの一般化など、報告された結果に影響を及ぼす一般的な障害モードをレビューする。
論文 参考訳(メタデータ) (2026-02-05T12:25:18Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Unmasking Synthetic Realities in Generative AI: A Comprehensive Review of Adversarially Robust Deepfake Detection Systems [4.359154048799454]
ディープフェイク拡散合成メディアは、デジタルセキュリティ、誤情報緩和、アイデンティティ保護に挑戦する。
本研究の体系的レビューでは, 再現性のある実装の透明性と検証を重視した, 最先端のディープフェイク検出手法の評価を行う。
1) 統計的異常や階層的特徴抽出を利用した完全合成メディアの検出,(2) 視覚的アーティファクトや時間的不整合といったマルチモーダルな手がかりを用いた実コンテンツ中の操作された領域の局在化。
論文 参考訳(メタデータ) (2025-07-24T22:05:52Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Ensuring Medical AI Safety: Interpretability-Driven Detection and Mitigation of Spurious Model Behavior and Associated Data [14.991686165405959]
2つのモダリティにまたがる4つの医療データセットを用いて,フレームワークの適用性を示す。
VGG16, ResNet50, および同時代のVision Transformerモデルにおいて, これらのバイアスを特定し, 解放することに成功した。
論文 参考訳(メタデータ) (2025-01-23T16:39:09Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。