論文の概要: Assessing Web Search Credibility and Response Groundedness in Chat Assistants
- arxiv url: http://arxiv.org/abs/2510.13749v1
- Date: Wed, 15 Oct 2025 16:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.774412
- Title: Assessing Web Search Credibility and Response Groundedness in Chat Assistants
- Title(参考訳): チャットアシスタントにおけるWeb検索の信頼性と応答基盤性の評価
- Authors: Ivan Vykopal, Matúš Pikuliak, Simon Ostermann, Marián Šimko,
- Abstract要約: 本稿では,アシスタントのWeb検索行動を評価するための新しい手法を提案する。
GPT-4o, GPT-5, Perplexity, Qwen Chatの5項目を100件のクレームで評価した。
- 参考スコア(独自算出の注目度): 4.0127354590894955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chat assistants increasingly integrate web search functionality, enabling them to retrieve and cite external sources. While this promises more reliable answers, it also raises the risk of amplifying misinformation from low-credibility sources. In this paper, we introduce a novel methodology for evaluating assistants' web search behavior, focusing on source credibility and the groundedness of responses with respect to cited sources. Using 100 claims across five misinformation-prone topics, we assess GPT-4o, GPT-5, Perplexity, and Qwen Chat. Our findings reveal differences between the assistants, with Perplexity achieving the highest source credibility, whereas GPT-4o exhibits elevated citation of non-credibility sources on sensitive topics. This work provides the first systematic comparison of commonly used chat assistants for fact-checking behavior, offering a foundation for evaluating AI systems in high-stakes information environments.
- Abstract(参考訳): チャットアシスタントはますますWeb検索機能を統合し、外部ソースの検索と引用を可能にしている。
これはより信頼性の高い回答を約束する一方で、低情報ソースからの誤情報を増幅するリスクも高める。
本稿では,情報提供者のWeb検索行動を評価する新しい手法を提案する。
GPT-4o, GPT-5, Perplexity, Qwen Chatの5項目を100件のクレームで評価した。
一方, GPT-4o では, 高い信頼度を達成できるが, 感度の低いトピックでは, 高い信頼度が得られている。
この研究は、ファクトチェック行動によく使われるチャットアシスタントを初めて体系的に比較し、ハイテイクな情報環境におけるAIシステム評価の基礎を提供する。
関連論文リスト
- SourceBench: Can AI Answers Reference Quality Web Sources? [14.668125843739423]
SourceBenchは、100の現実世界のクエリで引用されたWebソースの品質を測定するためのベンチマークである。
我々は8つの大言語モデル(LLM)、Google検索、および3つのAI検索ツールを、SourceBenchを用いて3996以上の引用ソースで評価した。
論文 参考訳(メタデータ) (2026-02-18T23:15:32Z) - Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond [3.615835506868351]
6つのベンチマークデータセットにわたる4つの異なる医療情報抽出(MedIE)タスクにおいて、ChatGPTの全体的な能力を評価することに重点を置いている。
本稿では,ChatGPTの性能,説明可能性,信頼度,信頼度,不確実性を測定し,系統分析を行った。
論文 参考訳(メタデータ) (2026-01-29T14:16:51Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading [24.52586571116556]
大規模言語モデル (LLMs) は研究助手としての役割を担っているが、学術的なタスクに対する信頼性は低い評価のままである。
本研究では,4つの主要な研究課題を対象としたLCMを体系的に評価するベンチマークであるPaperAskを紹介する。
引用検索は48~98%のマルチ参照クエリで失敗し、セクション固有のコンテンツ抽出は72~91%のケースで失敗し、トピックの論文発見ではF1スコアが0.32未満となり、関連する文献の60%以上が失われている。
論文 参考訳(メタデータ) (2025-10-25T10:11:29Z) - LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild [86.6586720134927]
LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
論文 参考訳(メタデータ) (2025-10-16T02:49:16Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority [2.860575804107195]
本稿では, 生成型AIシステム(ChatGPT, Bing Chat, Perplexity)の監査研究について報告する。
7日間に4つのトピックに対する48の真正クエリを用いてシステム応答を収集し,感情分析,帰納的符号化,ソース分類を用いて分析した。
その結果,これらのシステムにまたがるシステム応答の性質を概観し,クエリとトピックに基づく感情バイアスの証拠と,情報源における商業的および地理的バイアスの証拠を提供する。
論文 参考訳(メタデータ) (2024-05-22T22:09:32Z) - Evaluating Verifiability in Generative Search Engines [70.59477647085387]
生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
我々は,一般的な4つの生成検索エンジンの評価を行う。
既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
論文 参考訳(メタデータ) (2023-04-19T17:56:12Z) - chatClimate: Grounding Conversational AI in Climate Science [9.043032065867536]
大きな言語モデル(LLM)は、トレーニングフェーズ後の幻覚と時代遅れの情報という、2つの大きな課題に直面しています。
我々は,会話型AIのプロトタイプをwww.chatclimate.aiで公開し,課題に正確に答える能力を示す。
回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。
論文 参考訳(メタデータ) (2023-04-11T21:31:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。