論文の概要: Grounded Multilingual Medical Reasoning for Question Answering with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.05658v1
- Date: Fri, 05 Dec 2025 12:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.01429
- Title: Grounded Multilingual Medical Reasoning for Question Answering with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた質問応答のための接地型多言語医療推論
- Authors: Pietro Ferrazzi, Aitor Soroa, Rodrigo Agerri,
- Abstract要約: 本稿では,現実の医療知識に基づく多言語推論トレースを生成する手法を提案する。
我々は、ウィキペディアの医療情報に対する検索強化された世代アプローチを用いて、英語、イタリア語、スペイン語で500kのトレースを生成する。
- 参考スコア(独自算出の注目度): 15.135129023906138
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) with reasoning capabilities have recently demonstrated strong potential in medical Question Answering (QA). Existing approaches are largely English-focused and primarily rely on distillation from general-purpose LLMs, raising concerns about the reliability of their medical knowledge. In this work, we present a method to generate multilingual reasoning traces grounded in factual medical knowledge. We produce 500k traces in English, Italian, and Spanish, using a retrievalaugmented generation approach over medical information from Wikipedia. The traces are generated to solve medical questions drawn from MedQA and MedMCQA, which we extend to Italian and Spanish. We test our pipeline in both in-domain and outof-domain settings across Medical QA benchmarks, and demonstrate that our reasoning traces improve performance both when utilized via in-context learning (few-shot) and supervised fine-tuning, yielding state-of-the-art results among 8B-parameter LLMs. We believe that these resources can support the development of safer, more transparent clinical decision-support tools in multilingual settings. We release the full suite of resources: reasoning traces, translated QA datasets, Medical-Wikipedia, and fine-tuned models.
- Abstract(参考訳): 推論能力を持つ大規模言語モデル (LLM) は、最近医学的質問回答 (QA) において大きな可能性を示している。
既存のアプローチは主に英語に重点を置いており、主に汎用LLMからの蒸留に依存しており、医療知識の信頼性に関する懸念を提起している。
本研究では,実際の医学的知識に基づく多言語推論トレースを生成する手法を提案する。
我々は、ウィキペディアの医療情報に対する検索強化された世代アプローチを用いて、英語、イタリア語、スペイン語で500kのトレースを生成する。
これらの痕跡はMedQAとMedMCQAから引き出された医学的問題を解くために生成され、イタリア語とスペイン語に拡張する。
我々は、医用QAベンチマークの領域内および領域外両方の設定でパイプラインをテストし、コンテキスト内学習(few-shot)と教師付き微調整の両方を用いて、私たちの推論トレースがパフォーマンスを向上させることを実証し、8BパラメータLLMの最先端結果を得た。
これらの資源は多言語環境でのより安全で透明性の高い臨床診断支援ツールの開発を支援することができると我々は信じている。
推論トレース、翻訳されたQAデータセット、メディカルウィキペディア、微調整されたモデルなどです。
関連論文リスト
- MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - Knowledge-Empowered Representation Learning for Chinese Medical Reading
Comprehension: Task, Model and Resources [36.960318276653986]
医療領域を対象としたマルチターゲットMRCタスクを導入し,医療質問に対する回答とそれに対応する文章を同時に予測することを目的とする。
本稿では, 医学知識を事前学習言語モデルに融合させる, タスクのための中国の医療用BERTモデル(CMedBERT)を提案する。
実験の結果,CMedBERTはコンテキスト認識と知識認識のトークン表現を融合することにより,強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2020-08-24T11:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。