論文の概要: Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews
- arxiv url: http://arxiv.org/abs/2602.22221v1
- Date: Mon, 15 Dec 2025 15:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.684721
- Title: Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews
- Title(参考訳): 中国のWebにおける誤情報公開: 検索エンジン、LLM、AI概要のクロスシステム評価
- Authors: Geng Liu, Junjie Mu, Li Feng, Mengxiao Zhu, Francesco Pierri,
- Abstract要約: 大規模言語モデル (LLM) は検索サービスに統合され,直接的な回答が得られている。
しかし、非英語のWebエコシステムにおける実際の信頼性は、まだよく理解されていない。
実世界のオンライン検索ログから得られた12161中国語のYes/No質問のファクトチェックデータセットを紹介した。
- 参考スコア(独自算出の注目度): 5.655762029601206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into search services, providing direct answers that can reduce users' reliance on traditional result pages. Yet their factual reliability in non-English web ecosystems remains poorly understood, particularly when answering real user queries. We introduce a fact-checking dataset of 12~161 Chinese Yes/No questions derived from real-world online search logs and develop a unified evaluation pipeline to compare three information-access paradigms: traditional search engines, standalone LLMs, and AI-generated overview modules. Our analysis reveals substantial differences in factual accuracy and topic-level variability across systems. By combining this performance with real-world Baidu Index statistics, we further estimate potential exposure to incorrect factual information of Chinese users across regions. These findings highlight structural risks in AI-mediated search and underscore the need for more reliable and transparent information-access tools for the digital world.
- Abstract(参考訳): 大規模言語モデル(LLM)は検索サービスに統合され、従来の結果ページへのユーザの依存を減らす直接的な回答を提供する。
しかし、非英語のWebエコシステムにおける実際の信頼性は、特に実際のユーザクエリに答える際には、よく理解されていない。
実世界のオンライン検索ログから得られた12~161中国語のYes/No質問のファクトチェックデータセットを導入し、従来の検索エンジン、スタンドアロンLLM、AI生成概要モジュールの3つの情報アクセスパラダイムを比較するための統合評価パイプラインを開発する。
本分析により,システム間の実測精度と話題レベルの変動が著しく異なることが明らかとなった。
この性能と実世界のBaidu Index統計を組み合わせることで、中国人の誤った事実情報への潜在的露出をさらに推定する。
これらの発見は、AIによる検索における構造的リスクを強調し、デジタル世界のためのより信頼性が高く透明な情報アクセスツールの必要性を浮き彫りにしている。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:57:05Z) - Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T17:59:26Z) - Bias-Aware Agent: Enhancing Fairness in AI-Driven Knowledge Retrieval [0.0]
本研究では,エージェントフレームワークとバイアス検出装置の革新的利用を活用したバイアス認識知識検索手法を提案する。
透明性と意識をユーザに与えることによって、このアプローチはより公平な情報システムを促進することを目指している。
論文 参考訳(メタデータ) (2025-03-27T07:54:39Z) - "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Neurosymbolic AI approach to Attribution in Large Language Models [5.3454230926797734]
ニューロシンボリックAI(NesyAI)は、ニューラルネットワークの強みと構造化されたシンボリック推論を組み合わせる。
本稿では、NesyAIフレームワークが既存の属性モデルをどのように拡張し、より信頼性が高く、解釈可能で、適応可能なシステムを提供するかを検討する。
論文 参考訳(メタデータ) (2024-09-30T02:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。