論文の概要: Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions
- arxiv url: http://arxiv.org/abs/2407.06779v1
- Date: Tue, 9 Jul 2024 11:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:17:01.365608
- Title: Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions
- Title(参考訳): プロンプト工学を用いた事前学習型大規模言語モデルを用いた生体医学的質問への回答
- Authors: Wenxin Zhou, Thuy Hang Ngo,
- Abstract要約: 事前学習型大言語モデル(LLM)に基づく2段階情報検索と質問応答システムを提案する。
テキスト内数ショットの例でプロンプトを構築し、再サンプリングや不正な応答検出などの後処理技術を利用する。
本システムでは,文書検索における0.14 MAPスコア,スニペット検索における0.05 MAPスコア,イエス/ノー質問に対する0.96 F1スコア,ファクトイド質問に対する0.38 MRRスコア,タスク12bにおけるリスト質問に対する0.50 F1スコアを達成した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our team participated in the BioASQ 2024 Task12b and Synergy tasks to build a system that can answer biomedical questions by retrieving relevant articles and snippets from the PubMed database and generating exact and ideal answers. We propose a two-level information retrieval and question-answering system based on pre-trained large language models (LLM), focused on LLM prompt engineering and response post-processing. We construct prompts with in-context few-shot examples and utilize post-processing techniques like resampling and malformed response detection. We compare the performance of various pre-trained LLM models on this challenge, including Mixtral, OpenAI GPT and Llama2. Our best-performing system achieved 0.14 MAP score on document retrieval, 0.05 MAP score on snippet retrieval, 0.96 F1 score for yes/no questions, 0.38 MRR score for factoid questions and 0.50 F1 score for list questions in Task 12b.
- Abstract(参考訳): 我々のチームはBioASQ 2024 Task12bおよびSynergyタスクに参加し、PubMedデータベースから関連記事やスニペットを取得し、正確かつ理想的な回答を生成することで、バイオメディカルな質問に答えるシステムを構築しました。
本稿では,LLMのプロンプトエンジニアリングと応答後処理に着目した,事前学習型大規模言語モデル(LLM)に基づく2段階の情報検索と質問応答システムを提案する。
テキスト内数ショットの例でプロンプトを構築し、再サンプリングや不正な応答検出などの後処理技術を利用する。
この課題に対して、Mixtral、OpenAI GPT、Llama2など、様々な事前学習LLMモデルの性能を比較した。
本システムでは,文書検索における0.14 MAPスコア,スニペット検索における0.05 MAPスコア,イエス/ノー質問に対する0.96 F1スコア,ファクトイド質問に対する0.38 MRRスコア,タスク12bにおけるリスト質問に対する0.50 F1スコアを達成した。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions [0.0]
大規模言語モデル(LLM)が最近,ユーザの質問に対するオンライン回答の主要なソースになっている。
雄弁な答えを提供する能力があるにもかかわらず、その正確さと信頼性は重大な課題となる。
本稿では, バイオメディカル検索強化生成システム(RAG)を導入し, 生成した応答の信頼性を高める。
論文 参考訳(メタデータ) (2024-07-06T09:10:05Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Query-focused Extractive Summarisation for Biomedical and COVID-19
Complex Question Answering [0.0]
本稿では,最近の2つのBioASQ Synergy Tasksへのマッコーリー大学の参加について述べる。
本稿では, 問合せに焦点を絞った抽出要約手法を適用し, 生体医学的問題に対する複雑な回答を生成する。
The Synergy task, we selected the candidate sentences following two phases: document search and snippet search。
そこで本研究では,BioASQ10bトレーニングデータの下半期にトレーニングを行った結果の改善について検討した。
論文 参考訳(メタデータ) (2022-09-05T07:56:44Z) - Query-Focused Extractive Summarisation for Finding Ideal Answers to
Biomedical and COVID-19 Questions [7.6997148655751895]
マカリー大学はBioASQ Synergy TaskとBioASQ9b Phase Bに参加した。
我々は,BioASQ8bのトレーニングデータセットを用いて,問合せに着目した要約システムを用いた。
システムによって回収された文書やスニペットの質が低かったことを踏まえ,回答の質は適度に良好であった。
論文 参考訳(メタデータ) (2021-08-27T09:19:42Z) - A Clarifying Question Selection System from NTES_ALONG in Convai3
Challenge [8.656503175492375]
本稿では,検索指向会話型AI (SCAI) EMNLPワークショップにおけるClariQチャレンジへのNetEase Game AI Labチームの参加について述べる。
この課題は、解明された質問を理解し、生成できる完全な会話情報検索システムを求めるものである。
本稿では,回答理解,質問のリコール,質問ランキングの明確化からなる質問選択システムを提案する。
論文 参考訳(メタデータ) (2020-10-27T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。