論文の概要: Evaluating Verifiability in Generative Search Engines
- arxiv url: http://arxiv.org/abs/2304.09848v2
- Date: Mon, 23 Oct 2023 19:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:14:42.656736
- Title: Evaluating Verifiability in Generative Search Engines
- Title(参考訳): 生成検索エンジンにおける検証可能性の評価
- Authors: Nelson F. Liu and Tianyi Zhang and Percy Liang
- Abstract要約: 生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
我々は,一般的な4つの生成検索エンジンの評価を行う。
既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
- 参考スコア(独自算出の注目度): 70.59477647085387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative search engines directly generate responses to user queries, along
with in-line citations. A prerequisite trait of a trustworthy generative search
engine is verifiability, i.e., systems should cite comprehensively (high
citation recall; all statements are fully supported by citations) and
accurately (high citation precision; every cite supports its associated
statement). We conduct human evaluation to audit four popular generative search
engines -- Bing Chat, NeevaAI, perplexity.ai, and YouChat -- across a diverse
set of queries from a variety of sources (e.g., historical Google user queries,
dynamically-collected open-ended questions on Reddit, etc.). We find that
responses from existing generative search engines are fluent and appear
informative, but frequently contain unsupported statements and inaccurate
citations: on average, a mere 51.5% of generated sentences are fully supported
by citations and only 74.5% of citations support their associated sentence. We
believe that these results are concerningly low for systems that may serve as a
primary tool for information-seeking users, especially given their facade of
trustworthiness. We hope that our results further motivate the development of
trustworthy generative search engines and help researchers and users better
understand the shortcomings of existing commercial systems.
- Abstract(参考訳): 生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
信頼できる生成検索エンジンの前提条件は、総合的に引用すべきシステム(高い引用リコール、全ての文は引用によって完全に支持される)と正確に引用すべきシステム(高い引用精度、全ての引用が関連するステートメントをサポートする)である。
Bing Chat、NeevaAI、perplexity.ai、YouChatの4つの一般的な生成検索エンジンを、さまざまなソースからのさまざまなクエリ(例えば、過去のGoogleユーザクエリ、Redditで動的にコンパイルされたオープンエンド質問など)で評価する。
既存の生成検索エンジンからの応答は、流動的で情報的に見えるが、しばしばサポートされていない文や不正確な引用を含む: 平均して、生成された文の51.5%は引用によって完全に支持され、引用の74.5%のみが関連する文をサポートする。
これらの結果は、情報検索ユーザーにとって主要なツールとなる可能性のあるシステム、特に信頼性のファサードを考えると、かなり低いと我々は信じている。
この結果が、信頼性の高い生成型検索エンジンの開発をさらに動機付け、研究者やユーザが既存の商用システムの欠点を理解するのに役立つことを願っています。
関連論文リスト
- Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses [32.49468716515915]
大規模言語モデル(LLM)ベースのアプリケーションは、研究のプロトタイプから数百万のユーザを対象とする製品へと発展しつつある。
有名な例としては、従来の検索エンジンに取って代わるLLMベースの生成検索エンジンであるAnswer Enginesがある。
論文 参考訳(メタデータ) (2024-10-15T00:50:31Z) - Generative AI Search Engines as Arbiters of Public Knowledge: An Audit of Bias and Authority [2.860575804107195]
本稿では, 生成型AIシステム(ChatGPT, Bing Chat, Perplexity)の監査研究について報告する。
7日間に4つのトピックに対する48の真正クエリを用いてシステム応答を収集し,感情分析,帰納的符号化,ソース分類を用いて分析した。
その結果,これらのシステムにまたがるシステム応答の性質を概観し,クエリとトピックに基づく感情バイアスの証拠と,情報源における商業的および地理的バイアスの証拠を提供する。
論文 参考訳(メタデータ) (2024-05-22T22:09:32Z) - Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions [89.35345649303451]
生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性を秘めている。
しかし,既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではない。
検索強化世代は、敵がシステム全体を回避できるため、安全上の懸念を増す。
論文 参考訳(メタデータ) (2024-02-25T11:22:19Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Social Commonsense-Guided Search Query Generation for Open-Domain
Knowledge-Powered Conversations [66.16863141262506]
本稿では,ソーシャルコモンセンスによってガイドされたインターネット検索クエリ生成に焦点を当てた新しいアプローチを提案する。
提案フレームワークは,トピックトラッキング,コモンセンス応答生成,命令駆動クエリ生成を統合することで,受動的ユーザインタラクションに対処する。
論文 参考訳(メタデータ) (2023-10-22T16:14:56Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - Search-Engine-augmented Dialogue Response Generation with Cheaply
Supervised Query Production [98.98161995555485]
応答生成のために,任意の検索エンジンから膨大な動的情報にアクセス可能な対話モデルを提案する。
コアモジュールとして、クエリプロデューサを使用して、対話コンテキストからクエリを生成して、検索エンジンと対話する。
R@1とR@5のレートを62.4%と74.8%で達成できることを示す実験を行った。
論文 参考訳(メタデータ) (2023-02-16T01:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。