論文の概要: Assessing Web Search Credibility and Response Groundedness in Chat Assistants
- arxiv url: http://arxiv.org/abs/2510.13749v1
- Date: Wed, 15 Oct 2025 16:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.774412
- Title: Assessing Web Search Credibility and Response Groundedness in Chat Assistants
- Title(参考訳): チャットアシスタントにおけるWeb検索の信頼性と応答基盤性の評価
- Authors: Ivan Vykopal, Matúš Pikuliak, Simon Ostermann, Marián Šimko,
- Abstract要約: 本稿では,アシスタントのWeb検索行動を評価するための新しい手法を提案する。
GPT-4o, GPT-5, Perplexity, Qwen Chatの5項目を100件のクレームで評価した。
- 参考スコア(独自算出の注目度): 4.0127354590894955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chat assistants increasingly integrate web search functionality, enabling them to retrieve and cite external sources. While this promises more reliable answers, it also raises the risk of amplifying misinformation from low-credibility sources. In this paper, we introduce a novel methodology for evaluating assistants' web search behavior, focusing on source credibility and the groundedness of responses with respect to cited sources. Using 100 claims across five misinformation-prone topics, we assess GPT-4o, GPT-5, Perplexity, and Qwen Chat. Our findings reveal differences between the assistants, with Perplexity achieving the highest source credibility, whereas GPT-4o exhibits elevated citation of non-credibility sources on sensitive topics. This work provides the first systematic comparison of commonly used chat assistants for fact-checking behavior, offering a foundation for evaluating AI systems in high-stakes information environments.
- Abstract(参考訳): チャットアシスタントはますますWeb検索機能を統合し、外部ソースの検索と引用を可能にしている。
これはより信頼性の高い回答を約束する一方で、低情報ソースからの誤情報を増幅するリスクも高める。
本稿では,情報提供者のWeb検索行動を評価する新しい手法を提案する。
GPT-4o, GPT-5, Perplexity, Qwen Chatの5項目を100件のクレームで評価した。
一方, GPT-4o では, 高い信頼度を達成できるが, 感度の低いトピックでは, 高い信頼度が得られている。
この研究は、ファクトチェック行動によく使われるチャットアシスタントを初めて体系的に比較し、ハイテイクな情報環境におけるAIシステム評価の基礎を提供する。
関連論文リスト
- VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority [2.860575804107195]
本稿では, 生成型AIシステム(ChatGPT, Bing Chat, Perplexity)の監査研究について報告する。
7日間に4つのトピックに対する48の真正クエリを用いてシステム応答を収集し,感情分析,帰納的符号化,ソース分類を用いて分析した。
その結果,これらのシステムにまたがるシステム応答の性質を概観し,クエリとトピックに基づく感情バイアスの証拠と,情報源における商業的および地理的バイアスの証拠を提供する。
論文 参考訳(メタデータ) (2024-05-22T22:09:32Z) - Evaluating Verifiability in Generative Search Engines [70.59477647085387]
生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
我々は,一般的な4つの生成検索エンジンの評価を行う。
既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
論文 参考訳(メタデータ) (2023-04-19T17:56:12Z) - chatClimate: Grounding Conversational AI in Climate Science [9.043032065867536]
大きな言語モデル(LLM)は、トレーニングフェーズ後の幻覚と時代遅れの情報という、2つの大きな課題に直面しています。
我々は,会話型AIのプロトタイプをwww.chatclimate.aiで公開し,課題に正確に答える能力を示す。
回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。
論文 参考訳(メタデータ) (2023-04-11T21:31:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。