論文の概要: Retrieval Collapses When AI Pollutes the Web
- arxiv url: http://arxiv.org/abs/2602.16136v1
- Date: Wed, 18 Feb 2026 02:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.488516
- Title: Retrieval Collapses When AI Pollutes the Web
- Title(参考訳): AIがウェブを汚染すると検索が崩壊する
- Authors: Hongyeon Yu, Dongchan Kim, Young-Bum Kim,
- Abstract要約: AI生成コンテンツは検索結果を支配し、ソースの多様性を損なう。
敵対的な汚染下では、BM25のようなベースラインは有害なコンテンツの$19%を露呈した。
- 参考スコア(独自算出の注目度): 2.5489046505746695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of AI-generated content on the Web presents a structural risk to information retrieval, as search engines and Retrieval-Augmented Generation (RAG) systems increasingly consume evidence produced by the Large Language Models (LLMs). We characterize this ecosystem-level failure mode as Retrieval Collapse, a two-stage process where (1) AI-generated content dominates search results, eroding source diversity, and (2) low-quality or adversarial content infiltrates the retrieval pipeline. We analyzed this dynamic through controlled experiments involving both high-quality SEO-style content and adversarially crafted content. In the SEO scenario, a 67\% pool contamination led to over 80\% exposure contamination, creating a homogenized yet deceptively healthy state where answer accuracy remains stable despite the reliance on synthetic sources. Conversely, under adversarial contamination, baselines like BM25 exposed $\sim$19\% of harmful content, whereas LLM-based rankers demonstrated stronger suppression capabilities. These findings highlight the risk of retrieval pipelines quietly shifting toward synthetic evidence and the need for retrieval-aware strategies to prevent a self-reinforcing cycle of quality decline in Web-grounded systems.
- Abstract(参考訳): 大規模言語モデル(LLM)が生み出す証拠を検索エンジンやレトリーバル拡張生成システム(RAG)が消費するにつれて、Web上のAI生成コンテンツの急激な普及は情報検索に構造的リスクをもたらす。
このエコシステムレベルの障害モードを,(1)AI生成コンテンツが検索結果を支配し,(2)品質の低い,あるいは敵対的なコンテンツが検索パイプラインに侵入する2段階のプロセスであるRetrieval Collapseとして特徴付ける。
我々は,高品質なSEOスタイルコンテンツと逆制作コンテンツの両方を含む制御実験を通して,このダイナミクスを解析した。
SEOのシナリオでは、67 %のプール汚染が80 %以上の汚染を引き起こし、合成源に依存しているにもかかわらず、解答精度が安定な均質な状態が生じる。
逆に、敵対的な汚染下では、BM25のようなベースラインは有害なコンテンツの$\sim$19\%を露出し、LSMベースのローダーは強い抑制能力を示した。
これらの知見は, 検索パイプラインがひっそりと合成証拠に移行するリスクと, Web システムの品質低下の自己抑制サイクルを防止するための検索対応戦略の必要性を浮き彫りにした。
関連論文リスト
- The Verification Crisis: Expert Perceptions of GenAI Disinformation and the Case for Reproducible Provenance [47.03825808787752]
本稿では,AI研究者,政策立案者,偽情報専門家による縦断的専門家意識調査(N=21)の第1波から得られた知見について述べる。
テキスト、画像、オーディオ、ビデオといったマルチモーダルな脅威の重大さを調査し、現在の緩和戦略を評価する。
その結果、ディープフェイクビデオは即時「衝撃」の値を示す一方で、大規模テキスト生成は「印象的断片化」のシステム的リスクをもたらすことが示された。
論文 参考訳(メタデータ) (2026-02-02T13:45:12Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Information Retrieval in the Age of Generative AI: The RGB Model [77.96475639967431]
本稿では,生成型AIツールの利用の増加に伴って生じる複雑な情報ダイナミクスについて,新たな定量的アプローチを提案する。
本稿では,新たなトピックに応答して情報の生成,索引付け,普及を特徴付けるモデルを提案する。
以上の結果から,AI導入の急激なペースとユーザ依存度の増加は,不正確な情報拡散のリスクを増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-29T10:21:40Z) - Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction [69.38041171537573]
水質は環境の持続可能性、生態系の回復力、公衆衛生に基礎を置いている。
ディープラーニングは、大規模な水質予測と科学的洞察生成のための変革的なポテンシャルを提供する。
汚染緩和や資源配分等、高額な運用上の意思決定に広く採用されていることは、未解決の信頼性の課題によって防止されている。
論文 参考訳(メタデータ) (2025-03-13T01:50:50Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions [89.35345649303451]
生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性を秘めている。
しかし,既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではない。
検索強化世代は、敵がシステム全体を回避できるため、安全上の懸念を増す。
論文 参考訳(メタデータ) (2024-02-25T11:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。