論文の概要: Evaluating Search Engines and Large Language Models for Answering Health Questions
- arxiv url: http://arxiv.org/abs/2407.12468v3
- Date: Thu, 06 Mar 2025 11:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:55:57.058679
- Title: Evaluating Search Engines and Large Language Models for Answering Health Questions
- Title(参考訳): 健康問題に対する検索エンジンと大規模言語モデルの評価
- Authors: Marcos Fernández-Pichel, Juan C. Pichel, David E. Losada,
- Abstract要約: 本研究は,150の健康関連質問に対して,4つの人気のあるSE,7つのLLM,および検索強化(RAG)変異体の性能を比較した。
発見によると、SEは50から70%の質問に正しく答えており、多くの場合、健康問題に反応しない多くの検索結果によって妨げられている。
RAG法はLLMの有効性を著しく向上させ, 精度を最大30%向上させた。
- 参考スコア(独自算出の注目度): 3.8984586307450093
- License:
- Abstract: Search engines (SEs) have traditionally been primary tools for information seeking, but the new Large Language Models (LLMs) are emerging as powerful alternatives, particularly for question-answering tasks. This study compares the performance of four popular SEs, seven LLMs, and retrieval-augmented (RAG) variants in answering 150 health-related questions from the TREC Health Misinformation (HM) Track. Results reveal SEs correctly answer between 50 and 70% of questions, often hindered by many retrieval results not responding to the health question. LLMs deliver higher accuracy, correctly answering about 80% of questions, though their performance is sensitive to input prompts. RAG methods significantly enhance smaller LLMs' effectiveness, improving accuracy by up to 30% by integrating retrieval evidence.
- Abstract(参考訳): 検索エンジン(SE)は、伝統的に情報検索の主要なツールであるが、新しいLarge Language Models(LLM)は、特に質問応答タスクにおいて強力な代替手段として出現している。
本研究は, TREC Health Misinformation (HM) Trackから150の健康関連質問に回答するために, 4つの人気SE, 7つのLLM, 検索強化RAG(Research-augmented)変異体の性能を比較した。
その結果、SEsは50~70%の質問に対して正しく答えており、健康問題に反応しない多くの検索結果によって妨げられていることが判明した。
LLMは精度が高く、80%の質問に正しく答えるが、その性能は入力プロンプトに敏感である。
RAG法はLLMの有効性を著しく向上させ, 精度を最大30%向上させた。
関連論文リスト
- SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering? [40.76604786580897]
本稿では,リアルタイム検索エンジンを活用した制約を克服する新しいフレームワークであるSearchRAGを提案する。
本手法では,複雑な医療質問を検索エンジンフレンドリなクエリに変換するために,合成クエリ生成を用いる。
実験結果から,本手法は医療質問応答タスクの応答精度を有意に向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T19:12:15Z) - The Extractive-Abstractive Spectrum: Uncovering Verifiability Trade-offs in LLM Generations [40.498553309980764]
情報共有ツールの妥当性と実用性の間の相互作用について検討する。
ユーザは,大規模言語モデルよりも検索エンジンの方が高いクエリを好んでいることがわかった。
論文 参考訳(メタデータ) (2024-11-26T12:34:52Z) - Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses [32.49468716515915]
大規模言語モデル(LLM)ベースのアプリケーションは、研究のプロトタイプから数百万のユーザを対象とする製品へと発展しつつある。
有名な例としては、従来の検索エンジンに取って代わるLLMベースの生成検索エンジンであるAnswer Enginesがある。
論文 参考訳(メタデータ) (2024-10-15T00:50:31Z) - When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z) - Ranking Manipulation for Conversational Search Engines [7.958276719131612]
本稿では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
低品位製品を確実に促進する攻撃木を用いた脱獄技術を提案する。
論文 参考訳(メタデータ) (2024-06-05T19:14:21Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。