論文の概要: Pareto-Optimized Open-Source LLMs for Healthcare via Context Retrieval
- arxiv url: http://arxiv.org/abs/2409.15127v3
- Date: Thu, 03 Apr 2025 09:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 17:09:26.710542
- Title: Pareto-Optimized Open-Source LLMs for Healthcare via Context Retrieval
- Title(参考訳): Pareto-Optimized Open-Source LLMs for Healthcare by Context Retrieval (特集:医療と医療)
- Authors: Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla,
- Abstract要約: 本研究は、低コストで高性能な医療AIのためのオープンソースのLarge Language Models(LLM)を強化するために、最適化されたコンテキスト検索を活用する。
提案手法は, プロプライエタリモデルのコストのごく一部で, 医療質問応答における最先端の精度を実現することを実証する。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study leverages optimized context retrieval to enhance open-source Large Language Models (LLMs) for cost-effective, high performance healthcare AI. We demonstrate that this approach achieves state-of-the-art accuracy on medical question answering at a fraction of the cost of proprietary models, significantly improving the cost-accuracy Pareto frontier on the MedQA benchmark. Key contributions include: (1) OpenMedQA, a novel benchmark revealing a performance gap in open-ended medical QA compared to multiple-choice formats; (2) a practical, reproducible pipeline for context retrieval optimization; and (3) open-source resources (Prompt Engine, CoT/ToT/Thinking databases) to empower healthcare AI development. By advancing retrieval techniques and QA evaluation, we enable more affordable and reliable LLM solutions for healthcare.
- Abstract(参考訳): 本研究は、低コストで高性能な医療AIのためのオープンソースのLarge Language Models(LLM)を強化するために、最適化されたコンテキスト検索を活用する。
MedQAベンチマークにおいて,本手法は,プロプライエタリモデルのコストのごく一部で医療質問応答の最先端の精度を実現し,コスト精度のParetoフロンティアを著しく向上させることを示した。
主なコントリビューションは,(1)オープンエンド医療QAのパフォーマンスギャップを明らかにする新しいベンチマークであるOpenMedQA,(2)コンテキスト最適化最適化のための実用的な再現可能なパイプライン,(3)医療AI開発を促進するためのオープンソースリソース(Prompt Engine, CoT/ToT/Thinking Database)である。
検索手法とQA評価の進歩により、医療のためのより安価で信頼性の高いLCMソリューションが実現される。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models [34.81544597731073]
ACE-$M3$, textbfAutomatic textbfCapability textbfEvaluator for textbfMultimodal textbfMedical textbfModelsを紹介する。
最初に、標準的な医療評価基準に基づく詳細な分析と簡潔な最終スコアを提供するために、ブランチマージアーキテクチャを利用する。
論文 参考訳(メタデータ) (2024-12-16T05:15:43Z) - CareBot: A Pioneering Full-Process Open-Source Medical Language Model [8.868481107848185]
CareBotは、連続事前訓練(CPT)、教師付き微調整(SFT)、人間フィードバックによる強化学習(RLHF)を統合したバイリンガル医療用LLMである。
DataRaterは、CPT中のデータ品質を評価するために設計されたモデルで、トレーニングデータの正確性と関連性を保証する。
漢英ベンチマークの厳格な評価は、医療相談・教育におけるCareBotの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-12-12T05:27:43Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making [3.844437360527058]
健康や医学などの重要な領域では、幻覚は深刻なリスクを引き起こすことがある。
本稿では,医療質問応答システムの精度と信頼性を高めるための新しいフレームワークであるHALOを紹介する。
論文 参考訳(メタデータ) (2024-09-16T05:50:39Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Tool Calling: Enhancing Medication Consultation via Retrieval-Augmented Large Language Models [10.04914417538886]
大規模言語モデル(LLM)は、様々な言語タスクで顕著な成功を収めてきたが、幻覚や時間的ミスアライメントに悩まされている。
従来のtextitRetrieve-then-Read の代わりに,新しい textitDistill-Retrieve-Read フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-27T13:11:42Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Aligning Large Language Models for Clinical Tasks [0.0]
大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。
我々は「Expand-guess-refine」として知られる医療質問応答のためのアライメント戦略を提案する。
この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。
論文 参考訳(メタデータ) (2023-09-06T10:20:06Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。