Fugu-MT 論文翻訳(概要): Domain Fine-Tuning vs. Retrieval-Augmented Generation for Medical Multiple-Choice Question Answering: A Controlled Comparison at the 4B-Parameter Scale

論文の概要: Domain Fine-Tuning vs. Retrieval-Augmented Generation for Medical Multiple-Choice Question Answering: A Controlled Comparison at the 4B-Parameter Scale

arxiv url: http://arxiv.org/abs/2604.23801v1
Date: Sun, 26 Apr 2026 16:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.5579
Title: Domain Fine-Tuning vs. Retrieval-Augmented Generation for Medical Multiple-Choice Question Answering: A Controlled Comparison at the 4B-Parameter Scale
Title（参考訳）: 医療用多項目質問応答のためのドメインファインチューニング対検索生成:4Bパラメータ尺度による比較
Authors: Avi-ad Avraam Buskila,
Abstract要約: 小さなオープンウェイトな大規模言語モデル (LLM) は、繰り返し行われる設計選択に直面している。モデルサイズ,プロンプトテンプレート,復号化温度,検索パイプライン,評価プロトコルを固定することで,このトレードオフを分離する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Practitioners deploying small open-weight large language models (LLMs) for medical question answering face a recurring design choice: invest in a domain-fine-tuned model, or keep a general-purpose model and inject domain knowledge at inference time via retrieval-augmented generation (RAG). We isolate this trade-off by holding model size, prompt template, decoding temperature, retrieval pipeline, and evaluation protocol fixed, and varying only (i) whether the model has been domain-adapted (Gemma 3 4B vs. MedGemma 4B, both 4-bit quantized and served via Ollama) and (ii) whether retrieved passages from a medical knowledge corpus are inserted into the prompt. We evaluate all four cells of this 2x2 design on the full MedQA-USMLE 4-option test split (1,273 questions) with three repetitions per question (15,276 LLM calls). Domain fine-tuning yields a +6.8 percentage-point gain in majority-vote accuracy over the general 4B baseline (53.3% vs. 46.4%, McNemar p < 10^-4). RAG over MedMCQA explanations does not produce a statistically significant gain in either model, and in the domain-tuned model the point estimate is slightly negative (-1.9 pp, p = 0.16). At this scale and on this benchmark, domain knowledge encoded in weights dominates domain knowledge supplied in context. We release the full experiment code and JSONL traces to support replication.
Abstract（参考訳）: ドメイン定義モデルに投資するか、汎用モデルを維持し、検索拡張世代(RAG)を介して推論時にドメイン知識を注入する。モデルサイズ、プロンプトテンプレート、復号温度、検索パイプライン、評価プロトコルを固定し、変更するだけで、このトレードオフを分離する。 (i)モデルがドメイン適応されたかどうか(Gemma 3 4B vs. MedGemma 4B, 4ビット量子化されオラマ経由で提供される)、 2 医療知識コーパスから取得した通路を当該プロンプトに挿入するか否か。 MedQA-USMLE 4-option test split (1,273 question) の4つのセルを3回繰り返し(15,276 LLM call) で評価した。ドメインファインチューニングは、一般の4Bベースライン(53.3%対46.4%、マクネマール p < 10^-4)に対して、多数票の精度が+6.8ポイント上昇する。 MedMCQA 上の RAG はどちらのモデルにおいても統計的に有意な利得を得られず、ドメインチューニングされたモデルでは点推定はわずかに負(-1.9 pp, p = 0.16)である。このスケールとこのベンチマークでは、重みでエンコードされたドメイン知識がコンテキストで供給されるドメイン知識を支配します。レプリケーションをサポートするために、完全な試験コードとJSONLトレースをリリースしています。

関連論文リスト

Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework [0.0]
医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。 Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-12T08:56:15Z)
DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models [51.56484100374058]
大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。 3つのイノベーションを通じて知識の深さを測定するドメインに依存しないフレームワークであるDepthChargeを紹介します。モデルが実際に言及している概念に基づいてフォローアップ質問を生成する適応的探索、権威のある情報源からのオンデマンドの事実検証、あらゆる深さのサンプルサイズが一定である生存統計。
論文参考訳（メタデータ） (2026-03-05T20:49:11Z)
P-RAG: Prompt-Enhanced Parametric RAG with LoRA and Selective CoT for Biomedical and Multi-Hop QA [9.399056753263757]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取得することで、この制約に対処する。 3種類のRAG変異体-Standard RAG, DA-RAG, 提案したPrompt-Enhanced Parametric RAG (P-RAG) について検討した。 P-RAG は LLM 内にパラメトリック知識を統合し、チェイン・オブ・ソート (CoT) の誘導とローランド適応 (LoRA) によって導かれる証拠を回収する。
論文参考訳（メタデータ） (2026-02-02T03:42:45Z)
Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。 14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。 LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文参考訳（メタデータ） (2025-10-01T04:21:14Z)
Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters [16.74673750576054]
データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。 LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
論文参考訳（メタデータ） (2025-03-26T21:38:06Z)
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文参考訳（メタデータ） (2024-07-31T17:57:25Z)
Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。 OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文参考訳（メタデータ） (2023-05-26T17:33:05Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。