論文の概要: Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs
- arxiv url: http://arxiv.org/abs/2506.12182v1
- Date: Fri, 13 Jun 2025 19:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.384849
- Title: Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs
- Title(参考訳): LLMを用いた文脈医学的QAのための指導チューニングとCoTプロンプト
- Authors: Chenqian Le, Ziheng Gong, Chihang Wang, Haowei Ni, Panfeng Li, Xupeng Chen,
- Abstract要約: 大規模言語モデル(LLM)は医学的質問応答(MedQA)において大きな可能性を秘めている
PubMedQA 上でのオープンソース LLM の高速設計と軽量微調整が性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.12369742273401668
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have shown great potential in medical question answering (MedQA), yet adapting them to biomedical reasoning remains challenging due to domain-specific complexity and limited supervision. In this work, we study how prompt design and lightweight fine-tuning affect the performance of open-source LLMs on PubMedQA, a benchmark for multiple-choice biomedical questions. We focus on two widely used prompting strategies - standard instruction prompts and Chain-of-Thought (CoT) prompts - and apply QLoRA for parameter-efficient instruction tuning. Across multiple model families and sizes, our experiments show that CoT prompting alone can improve reasoning in zero-shot settings, while instruction tuning significantly boosts accuracy. However, fine-tuning on CoT prompts does not universally enhance performance and may even degrade it for certain larger models. These findings suggest that reasoning-aware prompts are useful, but their benefits are model- and scale-dependent. Our study offers practical insights into combining prompt engineering with efficient finetuning for medical QA applications.
- Abstract(参考訳): 大規模言語モデル (LLM) は、医学的質問応答 (MedQA) において大きな可能性を示しているが、ドメイン固有の複雑さと限定的な監督のために、それらを生物医学的推論に適用することは依然として困難である。
本研究では,複数分野のバイオメディカル質問のベンチマークであるPubMedQA上でのオープンソースLCMの性能に,迅速な設計と軽量微調整がどう影響するかを検討する。
我々は、標準的な命令プロンプトとChain-of-Thought(CoT)プロンプトという2つの広く使われているプロンプト戦略に注目し、パラメータ効率のよい命令チューニングにQLoRAを適用する。
複数のモデルファミリやサイズにまたがって、CoTのプロンプトだけでゼロショット設定における推論を改善することができる一方で、インストラクションチューニングによって精度が大幅に向上することを示す。
しかし、CoTプロンプトの微調整では性能が向上せず、より大型のモデルでは劣化する可能性がある。
これらの結果は、推論認識プロンプトは有用であるが、その利点はモデルとスケールに依存していることを示唆している。
本研究は,医療用QAアプリケーションにおいて,迅速なエンジニアリングと効率的な微調整を併用する実践的な知見を提供する。
関連論文リスト
- Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering [24.43605359639671]
我々はMedQA-USMLEデータセットの修正版であるMedQA-OPENを提案する。
臨床シナリオを模倣する選択肢のないオープンエンドの医療質問と、臨床者が承認した理性的な回答を含んでいる。
思考の連鎖(CoT)推論(CLINICR)によって駆動されるプロンプトを実装し,漸進的推論の過程を反映する。
論文 参考訳(メタデータ) (2024-03-07T20:48:40Z) - When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications [57.342772288710044]
我々はMOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良い微調整フレームワークを提案する。
MOEとLoRAを統一するために、トレーニング可能なパラメータとして複数の専門家を考案し、トレーニング可能なパラメータの小さなサイズを保持するために、各専門家は2つの低ランク行列から構成される。
マルチタスク医療データセットを用いて実験を行い、MOELoRAが既存のパラメータを効率よく微調整する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-21T17:18:09Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。