論文の概要: Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses
- arxiv url: http://arxiv.org/abs/2410.22349v1
- Date: Tue, 15 Oct 2024 00:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:16.325125
- Title: Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses
- Title(参考訳): AI時代の検索エンジン: 現実的で検証可能なソースクリック応答の偽の約束
- Authors: Pranav Narayanan Venkit, Philippe Laban, Yilun Zhou, Yixin Mao, Chien-Sheng Wu,
- Abstract要約: 大規模言語モデル(LLM)ベースのアプリケーションは、研究のプロトタイプから数百万のユーザを対象とする製品へと発展しつつある。
有名な例としては、従来の検索エンジンに取って代わるLLMベースの生成検索エンジンであるAnswer Enginesがある。
- 参考スコア(独自算出の注目度): 32.49468716515915
- License:
- Abstract: Large Language Model (LLM)-based applications are graduating from research prototypes to products serving millions of users, influencing how people write and consume information. A prominent example is the appearance of Answer Engines: LLM-based generative search engines supplanting traditional search engines. Answer engines not only retrieve relevant sources to a user query but synthesize answer summaries that cite the sources. To understand these systems' limitations, we first conducted a study with 21 participants, evaluating interactions with answer vs. traditional search engines and identifying 16 answer engine limitations. From these insights, we propose 16 answer engine design recommendations, linked to 8 metrics. An automated evaluation implementing our metrics on three popular engines (You.com, Perplexity.ai, BingChat) quantifies common limitations (e.g., frequent hallucination, inaccurate citation) and unique features (e.g., variation in answer confidence), with results mirroring user study insights. We release our Answer Engine Evaluation benchmark (AEE) to facilitate transparent evaluation of LLM-based applications.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのアプリケーションは、研究のプロトタイプから数百万のユーザにサービスを提供する製品へと発展し、人々が情報の書き方や消費方法に影響を与える。
有名な例としては、従来の検索エンジンに取って代わるLLMベースの生成検索エンジンであるAnswer Enginesがある。
Answerエンジンは、ユーザクエリに関連するソースを検索するだけでなく、ソースを引用する回答サマリーを合成する。
これらのシステムの限界を理解するために、まず21人の被験者を対象に、従来の検索エンジンとのインタラクションを評価し、16人の回答エンジンの制限を特定した。
これらの知見から,8つの指標に関連付けられた16の回答エンジン設計レコメンデーションを提案する。
一般的な3つのエンジン(You.com、Perplexity.ai、BingChat)のメトリクスを実装する自動評価では、共通の制限(例えば、頻繁な幻覚、不正確な引用)とユニークな特徴(例えば、回答の信頼性の変化)を定量化し、その結果がユーザ研究の洞察を反映している。
LLMベースのアプリケーションの透過的な評価を容易にするために、Answer Engine Evaluationベンチマーク(AEE)をリリースします。
関連論文リスト
- Search Engines, LLMs or Both? Evaluating Information Seeking Strategies for Answering Health Questions [3.8984586307450093]
我々は,異なるWeb検索エンジン,LLM(Large Language Models)およびRAG(Research-augmented)アプローチを比較した。
健康問題に対処する可能性のあるウェブページの品質は、ランキングを下方へ下るにつれて低下しない。
評価の結果, Web エンジンは健康問題に対する正しい回答を見つける上で LLM よりも精度が低いことがわかった。
論文 参考訳(メタデータ) (2024-07-17T10:40:39Z) - Towards a Search Engine for Machines: Unified Ranking for Multiple Retrieval-Augmented Large Language Models [21.115495457454365]
uRAGは、複数の下流検索拡張生成システム(RAG)を提供する統合検索エンジンを備えたフレームワークである。
我々は、訓練に従事する18のRAGシステムと、uRAGを検索エンジンの新規ユーザとして使用する18の未知のRAGシステムからなる大規模な実験エコシステムを構築した。
論文 参考訳(メタデータ) (2024-04-30T19:51:37Z) - Evaluating Robustness of Generative Search Engine on Adversarial Factual Questions [89.35345649303451]
生成検索エンジンは、人々がオンラインで情報を求める方法を変える可能性を秘めている。
しかし,既存の大規模言語モデル(LLM)が支援する生成検索エンジンからの応答は必ずしも正確ではない。
検索強化世代は、敵がシステム全体を回避できるため、安全上の懸念を増す。
論文 参考訳(メタデータ) (2024-02-25T11:22:19Z) - GEO: Generative Engine Optimization [50.45232692363787]
我々は、生成エンジン(GE)の統一的な枠組みを定式化する。
GEは大規模な言語モデル(LLM)を使用して情報を収集し、ユーザクエリに応答する。
生成エンジンは通常、複数のソースから情報を合成し、それらを要約することでクエリを満足する。
我々は、生成エンジン応答におけるコンテンツの可視性向上を支援するために、コンテンツ作成者を支援する最初の新しいパラダイムである生成エンジン最適化(GEO)を紹介する。
論文 参考訳(メタデータ) (2023-11-16T10:06:09Z) - Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文 参考訳(メタデータ) (2023-05-10T16:58:33Z) - Evaluating Verifiability in Generative Search Engines [70.59477647085387]
生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。
我々は,一般的な4つの生成検索エンジンの評価を行う。
既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
論文 参考訳(メタデータ) (2023-04-19T17:56:12Z) - Search-Engine-augmented Dialogue Response Generation with Cheaply
Supervised Query Production [98.98161995555485]
応答生成のために,任意の検索エンジンから膨大な動的情報にアクセス可能な対話モデルを提案する。
コアモジュールとして、クエリプロデューサを使用して、対話コンテキストからクエリを生成して、検索エンジンと対話する。
R@1とR@5のレートを62.4%と74.8%で達成できることを示す実験を行った。
論文 参考訳(メタデータ) (2023-02-16T01:58:10Z) - Brain-inspired Search Engine Assistant based on Knowledge Graph [53.89429854626489]
developerbotは脳にインスパイアされた、knowledge graphの名前の検索エンジンアシスタントだ。
複雑なマルチ制約クエリを複数の順序制約に分割することで、多層クエリグラフを構築する。
次に、制約推論プロセスを認知科学の拡散活性化モデルに触発されたサブグラフ探索プロセスとしてモデル化する。
論文 参考訳(メタデータ) (2020-12-25T06:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。