論文の概要: Evaluating Search Engines and Large Language Models for Answering Health Questions
- arxiv url: http://arxiv.org/abs/2407.12468v3
- Date: Thu, 06 Mar 2025 11:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.40768
- Title: Evaluating Search Engines and Large Language Models for Answering Health Questions
- Title(参考訳): 健康問題に対する検索エンジンと大規模言語モデルの評価
- Authors: Marcos Fernández-Pichel, Juan C. Pichel, David E. Losada,
- Abstract要約: 本研究は,150の健康関連質問に対して,4つの人気のあるSE,7つのLLM,および検索強化(RAG)変異体の性能を比較した。
発見によると、SEは50から70%の質問に正しく答えており、多くの場合、健康問題に反応しない多くの検索結果によって妨げられている。
RAG法はLLMの有効性を著しく向上させ, 精度を最大30%向上させた。
- 参考スコア(独自算出の注目度): 3.8984586307450093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search engines (SEs) have traditionally been primary tools for information seeking, but the new Large Language Models (LLMs) are emerging as powerful alternatives, particularly for question-answering tasks. This study compares the performance of four popular SEs, seven LLMs, and retrieval-augmented (RAG) variants in answering 150 health-related questions from the TREC Health Misinformation (HM) Track. Results reveal SEs correctly answer between 50 and 70% of questions, often hindered by many retrieval results not responding to the health question. LLMs deliver higher accuracy, correctly answering about 80% of questions, though their performance is sensitive to input prompts. RAG methods significantly enhance smaller LLMs' effectiveness, improving accuracy by up to 30% by integrating retrieval evidence.
- Abstract(参考訳): 検索エンジン(SE)は、伝統的に情報検索の主要なツールであるが、新しいLarge Language Models(LLM)は、特に質問応答タスクにおいて強力な代替手段として出現している。
本研究は, TREC Health Misinformation (HM) Trackから150の健康関連質問に回答するために, 4つの人気SE, 7つのLLM, 検索強化RAG(Research-augmented)変異体の性能を比較した。
その結果、SEsは50~70%の質問に対して正しく答えており、健康問題に反応しない多くの検索結果によって妨げられていることが判明した。
LLMは精度が高く、80%の質問に正しく答えるが、その性能は入力プロンプトに敏感である。
RAG法はLLMの有効性を著しく向上させ, 精度を最大30%向上させた。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - The Extractive-Abstractive Spectrum: Uncovering Verifiability Trade-offs in LLM Generations [40.498553309980764]
情報共有ツールの妥当性と実用性の間の相互作用について検討する。
ユーザは,大規模言語モデルよりも検索エンジンの方が高いクエリを好んでいることがわかった。
論文 参考訳(メタデータ) (2024-11-26T12:34:52Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。
本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses [32.49468716515915]
大規模言語モデル(LLM)ベースのアプリケーションは、研究のプロトタイプから数百万のユーザを対象とする製品へと発展しつつある。
有名な例としては、従来の検索エンジンに取って代わるLLMベースの生成検索エンジンであるAnswer Enginesがある。
論文 参考訳(メタデータ) (2024-10-15T00:50:31Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - The Geometry of Queries: Query-Based Innovations in Retrieval-Augmented Generation [1.2839205715237014]
大きな言語モデル(LLM)は、慢性疾患に対する個人的健康管理を大幅に改善する可能性がある。
LLMは多様なインターネットデータから学んだパターンに基づいて応答を生成する。
Retrieval Augmented Generation (RAG)は、RAG応答における幻覚と不正確性を緩和する。
論文 参考訳(メタデータ) (2024-07-25T13:47:01Z) - Answering real-world clinical questions using large language model based systems [2.2605659089865355]
大規模言語モデル(LLM)は、出版された文献を要約するか、実世界データ(RWD)に基づいた新しい研究を生成することによって、両方の課題に対処できる可能性がある。
臨床50問に回答する5つのLCMベースのシステムについて検討し,9名の医師に関連性,信頼性,行動性について検討した。
論文 参考訳(メタデータ) (2024-06-29T22:39:20Z) - When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Ranking Manipulation for Conversational Search Engines [7.958276719131612]
本稿では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
低品位製品を確実に促進する攻撃木を用いた脱獄技術を提案する。
論文 参考訳(メタデータ) (2024-06-05T19:14:21Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability [8.476124605775976]
LLM(Large Language Models)は、医学知識の獲得と質問応答において顕著な可能性を実証している。
LLMは、ドメイン固有の事前訓練であっても、幻覚を起こし、事実的に誤った結果をもたらす可能性がある。
JMLR(LLMと情報検索)を微調整期間中に導入し,幻覚に対処する。
論文 参考訳(メタデータ) (2024-02-27T21:01:41Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。