論文の概要: Evaluating Commercial AI Chatbots as News Intermediaries
- arxiv url: http://arxiv.org/abs/2605.22785v1
- Date: Thu, 21 May 2026 17:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.383462
- Title: Evaluating Commercial AI Chatbots as News Intermediaries
- Title(参考訳): ニュース仲介者としての商用AIチャットボットの評価
- Authors: Mirac Suzgun, Emily Shen, Federico Bianchi, Alexander Spangher, Thomas Icard, Daniel E. Ho, Dan Jurafsky, James Zou,
- Abstract要約: ベストシステムは、数時間前に報告されたイベントに関する質問に対して、90%以上の多重選択精度を達成する。
すべてのモデルはヒンディー語で最小の精度を達成する。
原因ではなく検索は エラーの70%以上を 引き起こします
- 参考スコア(独自算出の注目度): 85.32040752972836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI chatbots are rapidly shaping how people encounter the news, yet no prior study has systematically measured how accurately these systems, with their proprietary search integrations and retrieval-synthesis pipelines, handle emerging facts across languages and regions. We present a 14-day (February 9-22, 2026) evaluation of six AI chatbots (Gemini 3 Flash and Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 and GPT-4o mini) on 2,100 factual questions derived from same-day BBC News reporting across six regional services (US & Canada, Arabic, Afrique, Hindi, Russian, Turkish). The best systems achieve over 90% multiple-choice accuracy on questions about events reported hours earlier. The same systems, however, lose 11-13% under free-response evaluation, and 16-17% across the cohort. We further characterize three failure patterns. First, every model achieves its lowest accuracy on Hindi (79% vs. 89-91% elsewhere) and citations indicate an Anglophone retrieval bias (e.g., models answering Hindi queries cite English Wikipedia more than any Hindi outlet). Second, retrieval, not reasoning, failures drive over 70% of all errors. When models retrieve a correct source, they often extract the correct answer; the problem is to land on the right source in the first place. Third, models achieving 88-96% accuracy on well-formed questions drop to 19-70% when questions contain subtle false premises, with the most vulnerable model accepting fabricated facts 64% of the time. We also identify a detection-accuracy paradox: the best false-premise detector ranks second in adversarial accuracy (abstention rate), while a weaker detector ranks first, showing that premise detection and answer recovery are partially independent capabilities. Overall, these suggest that high accuracy can mask systematic regional inequity, near-total dependence on retrieval infrastructure, and vulnerability to imperfect queries real users pose.
- Abstract(参考訳): AIチャットボットは、人々がニュースに遭遇する方法を急速に形作っているが、これらのシステムが、独自の検索統合と検索合成パイプラインによって、言語や地域をまたがる新たな事実を扱うという、体系的な研究は行われていない。
我々は,6つの地域サービス(米国,カナダ,アラビア,アフリカ,ヒンディー語,ロシア,トルコ)で,同日BBCニュースが報告した2,100の事実質問に対して,6つのAIチャットボット(Gemini 3 Flash and Pro,Grok 4, Claude 4.5 Sonnet,GPT-5,GPT-4o mini)の14日間(2026年2月9日-22日)の評価を行った。
最高のシステムは、数時間前に報告されたイベントに関する質問に対して90%以上の多重選択精度を達成する。
しかし、同じシステムは、自由応答評価で11-13%、コホート全体で16-17%を失う。
さらに3つの障害パターンを特徴付けます。
まず、すべてのモデルはヒンディー語で最低精度を達成し(79%対89-91%)、引用は英語の検索バイアスを示している(例:ヒンディー語クエリに応答するモデルがヒンディー語ソースよりも英語のウィキペディアを引用している)。
第二に、検索は推論ではなく、失敗によって全エラーの70%以上を発生させる。
モデルが正しいソースを取得するとき、しばしば正しい答えを抽出する。
第三に、よくできた質問で88~96%の精度を達成するモデルは、質問が微妙な虚偽の前提を含む場合、19~70%に低下し、最も脆弱なモデルは偽造事実を64%受け入れる。
また, 検出精度のパラドックスも同定し, 最高の偽位置検出器は敵の精度(保持率)で第2位, 弱い検出器は第1位であり, 前提検出と応答回復が部分的に独立していることを示す。
全体として、高い精度は、体系的な地域的不平等、検索インフラへのほぼ最新の依存、および実際のユーザが提案する不完全なクエリの脆弱性を隠蔽する可能性があることを示唆している。
関連論文リスト
- DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects [6.107850985025956]
本稿では,50の英語方言における偽情報検出のための最初のベンチマークであるDIA-HARMを提案する。
人間による方言の含有量は1.4-3.6%減少し、一方でAI生成された内容は安定している。
私たちはDIA-HARMフレームワーク、D3コーパス、評価ツールをリリースします。
論文 参考訳(メタデータ) (2026-04-07T01:43:48Z) - Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models [11.16952630564181]
不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。
本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。
経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
論文 参考訳(メタデータ) (2025-09-27T10:32:41Z) - Scaling Truth: The Confidence Paradox in AI Fact-Checking [0.8201655885319955]
大規模言語モデル(LLM)は事実検証の自動化を約束するが、グローバルな文脈での有効性は不確実である。
我々はこれまでに47言語174のファクトチェック組織で評価された5000のクレームを用いて,複数のカテゴリにまたがる9つの確立されたLCMを体系的に評価した。
より小さいモデルでは精度が低いにもかかわらず高い信頼性を示す一方、より大きなモデルは高い精度を示すが、信頼性は低い。
論文 参考訳(メタデータ) (2025-09-10T17:36:25Z) - Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers [34.31192184496381]
デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心である。
我々は,これらのコンポーネントがベースとする大規模言語モデル(LLM)をどの程度の事実的能力で継承するか,あるいは失うかを評価する。
全ての埋め込みモデルにおいて、クエリと正しい完了の間のコサイン類似度スコアは、間違ったものよりも著しく高い。
論文 参考訳(メタデータ) (2025-08-28T04:13:51Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Is Human-Like Text Liked by Humans? Multilingual Human Detection and Preference Against AI [95.81924314159943]
人文と機械文の大きなギャップは、具体性、文化的ニュアンス、多様性にある。
また,人間は必ずしも人書きのテキストを好んではいないこと,特にその情報源を明確に特定できない場合などを見いだす。
論文 参考訳(メタデータ) (2025-02-17T09:56:46Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。