論文の概要: Dissecting Clinical Reasoning in Language Models: A Comparative Study of Prompts and Model Adaptation Strategies
- arxiv url: http://arxiv.org/abs/2507.04142v1
- Date: Sat, 05 Jul 2025 19:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.039127
- Title: Dissecting Clinical Reasoning in Language Models: A Comparative Study of Prompts and Model Adaptation Strategies
- Title(参考訳): 言語モデルにおける分離型臨床推論:プロンプトとモデル適応戦略の比較研究
- Authors: Mael Jullien, Marco Valentino, Leonardo Ranaldi, Andre Freitas,
- Abstract要約: 本研究は, 臨床用NLIにおいて, 高速な構造と高効率な微調整関節形状モデルの性能について, 制御された最初の評価を行ったものである。
我々は、フロンティアモデルを用いて、ローランド適応(LoRA)を介して、より小さなモデルに多段階推論機能を組み込む高品質なデモを構築する。
NLI4CTベンチマークで微調整した言語モデルでは,マクロF1の差の最大44%がプロンプト型のみであることがわかった。
LoRAファインチューニングは、+8から12F1の一貫性のあるゲインを獲得し、出力アライメントを97%以上引き上げ、パフォーマンスギャップをGPT-4に絞り込む。
- 参考スコア(独自算出の注目度): 4.299840769087444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on large language models (LLMs) have demonstrated the impact of prompting strategies and fine-tuning techniques on their reasoning capabilities. Yet, their effectiveness on clinical natural language inference (NLI) remains underexplored. This study presents the first controlled evaluation of how prompt structure and efficient fine-tuning jointly shape model performance in clinical NLI. We inspect four classes of prompting strategies to elicit reasoning in LLMs at different levels of abstraction, and evaluate their impact on a range of clinically motivated reasoning types. For each prompting strategy, we construct high-quality demonstrations using a frontier model to distil multi-step reasoning capabilities into smaller models (4B parameters) via Low-Rank Adaptation (LoRA). Across different language models fine-tuned on the NLI4CT benchmark, we found that prompt type alone accounts for up to 44% of the variance in macro-F1. Moreover, LoRA fine-tuning yields consistent gains of +8 to 12 F1, raises output alignment above 97%, and narrows the performance gap to GPT-4o-mini to within 7.1%. Additional experiments on reasoning generalisation reveal that LoRA improves performance in 75% of the models on MedNLI and TREC Clinical Trials Track. Overall, these findings demonstrate that (i) prompt structure is a primary driver of clinical reasoning performance, (ii) compact models equipped with strong prompts and LoRA can rival frontier-scale systems, and (iii) reasoning-type-aware evaluation is essential to uncover prompt-induced trade-offs. Our results highlight the promise of combining prompt design and lightweight adaptation for more efficient and trustworthy clinical NLP systems, providing insights on the strengths and limitations of widely adopted prompting and parameter-efficient techniques in highly specialised domains.
- Abstract(参考訳): 大規模言語モデル(LLM)に関する最近の研究は、戦略や微調整技術が推論能力に与える影響を実証している。
しかし, 臨床自然言語推論(NLI)の有効性はいまだ検討されていない。
本研究は, 臨床用NLIにおいて, 高速な構造と高効率な微調整関節形状モデルの性能について, 制御された最初の評価を行ったものである。
異なる抽象レベルでのLCMにおける推論を誘発する4つの戦略を考察し,その効果を臨床的に動機づけた推論タイプで評価した。
各プロンプト戦略に対して,フロンティアモデルを用いて,ローランド適応(LoRA)を用いて,複数のステップ推論能力をより小さなモデル(4Bパラメータ)に分解する高品質な実演を構築した。
NLI4CTベンチマークで微調整した言語モデルでは,マクロF1の差の最大44%がプロンプト型のみであることがわかった。
さらに、LoRAファインチューニングは、+8から12F1の一貫性のあるゲインを獲得し、出力アライメントを97%以上引き上げ、パフォーマンスギャップをGPT-4o-miniに7.1%以内に絞り込む。
推論一般化に関するさらなる実験により、LoRAはMedNLIおよびTREC臨床治験トラックの75%のモデルで性能を改善することが明らかになった。
これらの知見は全体として
(i)プロンプト構造は臨床推論性能の第一の要因である。
二 強プロンプトを備えたコンパクトモデル及びロラがフロンティアスケールシステムと競合し得ること。
三 急激な引き起こしたトレードオフを明らかにするためには、推論型認識評価が不可欠である。
本研究は,より効率的かつ信頼性の高いNLPシステムに対して,迅速な設計と軽量適応を組み合わせることの約束を強調し,高度に専門化された領域において広く採用されているプロンプトとパラメータ効率の手法の長所と短所について考察した。
関連論文リスト
- Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training [0.0]
医学推論における最先端性能を実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。
我々のモデルは、中規模のモデルが専門分野においてはるかに大きなモデルよりも優れた性能を発揮することを実証している。
Gazal-R1は、MedQAで87.1%、MMLU Proで81.6%、PubMedQAで79.6%、医療ベンチマークで例外的なパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-06-18T09:44:21Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、効果的なポリシー最適化のための自然言語と数値フィードバックを統合している。
教師付き学習ベースとRLベースの微調整アプローチを一貫して上回る。
オンライン強化学習に専門家によるデモンストレーションを取り入れた、強力なベースラインを超えている。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models [15.870555147672023]
強化学習(RL)に基づく多モーダル大規模言語モデル(MLLM)の軌道変更
医用視覚質問応答(VQA)におけるRLに基づくチューニングの有効性に影響を与える4つの臨界次元について検討する。
我々は、これらの因子を医療MLLMで分析するための広範囲な実験を行い、モデルがどのようにドメイン特異的に微調整されているかについての新しい知見を提供する。
論文 参考訳(メタデータ) (2025-05-20T06:12:20Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。