論文の概要: Evaluating Verifiability in Generative Search Engines
- arxiv url: http://arxiv.org/abs/2304.09848v2
- Date: Mon, 23 Oct 2023 19:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:14:42.656736
- Title: Evaluating Verifiability in Generative Search Engines
- Title(参考訳): 生成検索エンジンにおける検証可能性の評価
- Authors: Nelson F. Liu and Tianyi Zhang and Percy Liang
- Abstract要約: 生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
我々は,一般的な4つの生成検索エンジンの評価を行う。
既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
- 参考スコア(独自算出の注目度): 70.59477647085387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative search engines directly generate responses to user queries, along
with in-line citations. A prerequisite trait of a trustworthy generative search
engine is verifiability, i.e., systems should cite comprehensively (high
citation recall; all statements are fully supported by citations) and
accurately (high citation precision; every cite supports its associated
statement). We conduct human evaluation to audit four popular generative search
engines -- Bing Chat, NeevaAI, perplexity.ai, and YouChat -- across a diverse
set of queries from a variety of sources (e.g., historical Google user queries,
dynamically-collected open-ended questions on Reddit, etc.). We find that
responses from existing generative search engines are fluent and appear
informative, but frequently contain unsupported statements and inaccurate
citations: on average, a mere 51.5% of generated sentences are fully supported
by citations and only 74.5% of citations support their associated sentence. We
believe that these results are concerningly low for systems that may serve as a
primary tool for information-seeking users, especially given their facade of
trustworthiness. We hope that our results further motivate the development of
trustworthy generative search engines and help researchers and users better
understand the shortcomings of existing commercial systems.
- Abstract(参考訳): 生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
信頼できる生成検索エンジンの前提条件は、総合的に引用すべきシステム(高い引用リコール、全ての文は引用によって完全に支持される)と正確に引用すべきシステム(高い引用精度、全ての引用が関連するステートメントをサポートする)である。
Bing Chat、NeevaAI、perplexity.ai、YouChatの4つの一般的な生成検索エンジンを、さまざまなソースからのさまざまなクエリ(例えば、過去のGoogleユーザクエリ、Redditで動的にコンパイルされたオープンエンド質問など)で評価する。
既存の生成検索エンジンからの応答は、流動的で情報的に見えるが、しばしばサポートされていない文や不正確な引用を含む: 平均して、生成された文の51.5%は引用によって完全に支持され、引用の74.5%のみが関連する文をサポートする。
これらの結果は、情報検索ユーザーにとって主要なツールとなる可能性のあるシステム、特に信頼性のファサードを考えると、かなり低いと我々は信じている。
この結果が、信頼性の高い生成型検索エンジンの開発をさらに動機付け、研究者やユーザが既存の商用システムの欠点を理解するのに役立つことを願っています。
関連論文リスト
- WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Crafting Knowledge: Exploring the Creative Mechanisms of Chat-Based
Search Engines [3.5845457075304368]
本研究の目的は,LLMを利用した検索エンジン,特にBing Chatが応答情報ソースを選択するメカニズムを解明することである。
Bing Chatは読みやすく、形式的に構造化されたコンテンツを好むだけでなく、より低いパープレキシティレベルを示す。
本調査では,RAG技術が引用するWebサイトと従来の検索エンジンの上位のWebサイトとの類似性を比較検討した。
論文 参考訳(メタデータ) (2024-02-29T18:20:37Z) - Social Commonsense-Guided Search Query Generation for Open-Domain
Knowledge-Powered Conversations [66.16863141262506]
本稿では,ソーシャルコモンセンスによってガイドされたインターネット検索クエリ生成に焦点を当てた新しいアプローチを提案する。
提案フレームワークは,トピックトラッキング,コモンセンス応答生成,命令駆動クエリ生成を統合することで,受動的ユーザインタラクションに対処する。
論文 参考訳(メタデータ) (2023-10-22T16:14:56Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - Search-Engine-augmented Dialogue Response Generation with Cheaply
Supervised Query Production [98.98161995555485]
応答生成のために,任意の検索エンジンから膨大な動的情報にアクセス可能な対話モデルを提案する。
コアモジュールとして、クエリプロデューサを使用して、対話コンテキストからクエリを生成して、検索エンジンと対話する。
R@1とR@5のレートを62.4%と74.8%で達成できることを示す実験を行った。
論文 参考訳(メタデータ) (2023-02-16T01:58:10Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。