Fugu-MT 論文翻訳(概要): Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization

論文の概要: Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization

arxiv url: http://arxiv.org/abs/2504.18080v1
Date: Fri, 25 Apr 2025 05:15:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.647127
Title: Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization
Title（参考訳）: プレトレーニングと推論の最適化を継続した医療用LDMにおける推論の安定化
Authors: Wataru Kawakami, Keita Suzuki, Junichiro Iwasawa,
Abstract要約: 本稿では,日本の医療領域に最適化された72BパラメータモデルであるPreferred-MedLLM-Qwen-72Bを紹介する。我々は、Qwen2.5-72Bベースモデルに2段階の微調整プロセスを適用し、高い精度と安定した推論を実現する。
参考スコア（独自算出の注目度）: 0.06554326244334867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) show potential in medicine, yet clinical adoption is hindered by concerns over factual accuracy, language-specific limitations (e.g., Japanese), and critically, their reliability when required to generate reasoning explanations -- a prerequisite for trust. This paper introduces Preferred-MedLLM-Qwen-72B, a 72B-parameter model optimized for the Japanese medical domain to achieve both high accuracy and stable reasoning. We employ a two-stage fine-tuning process on the Qwen2.5-72B base model: first, Continued Pretraining (CPT) on a comprehensive Japanese medical corpus instills deep domain knowledge. Second, Reasoning Preference Optimization (RPO), a preference-based method, enhances the generation of reliable reasoning pathways while preserving high answer accuracy. Evaluations on the Japanese Medical Licensing Exam benchmark (IgakuQA) show Preferred-MedLLM-Qwen-72B achieves state-of-the-art performance (0.868 accuracy), surpassing strong proprietary models like GPT-4o (0.866). Crucially, unlike baseline or CPT-only models which exhibit significant accuracy degradation (up to 11.5\% and 3.8\% respectively on IgakuQA) when prompted for explanations, our model maintains its high accuracy (0.868) under such conditions. This highlights RPO's effectiveness in stabilizing reasoning generation. This work underscores the importance of optimizing for reliable explanations alongside accuracy. We release the Preferred-MedLLM-Qwen-72B model weights to foster research into trustworthy LLMs for specialized, high-stakes applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は医学における可能性を示しているが、臨床応用は、事実的正確性、言語固有の制限(例:日本語)、そして、推論の説明を生成するために必要な信頼性(信頼の前提条件)に関する懸念によって妨げられている。本稿では,日本の医療領域に最適化された72BパラメータモデルであるPreferred-MedLLM-Qwen-72Bについて述べる。われわれはQwen2.5-72Bベースモデルに2段階の微調整プロセス(第1段階, 継続事前訓練(CPT))を応用し, ドメイン知識の深層化を図った。第2に、優先順位に基づく手法であるReasoning Preference Optimization (RPO) は、高い応答精度を維持しながら信頼性の高い推論経路を生成する。 IgakuQAの評価によると、Preferred-MedLLM-Qwen-72Bは最先端の性能(0.868精度)を達成し、GPT-4o(0.866)のような強力なプロプライエタリモデルを上回っている。重要な点として,説明を促された場合の精度劣化(IgakuQAでは最大11.5\%,3.8\%)を示すベースラインモデルやCPT専用モデルとは異なり,これらの条件下では高い精度(0.868)を維持している。このことは、RPOが推論生成を安定化する効果を強調している。この研究は、正確さとともに信頼性のある説明を最適化することの重要性を浮き彫りにしている。信頼性の高いLCMの研究を促進するために,Preferred-MedLLM-Qwen-72Bモデルウェイトをリリースする。

関連論文リスト

Accurate and Interpretable Postmenstrual Age Prediction via Multimodal Large Language Model [4.176819645111134]
命令チューニングとローランド適応(LoRA)を用いたパラメータ効率細調整(PEFT)戦略を提案する。トレーニングと推論に異なるプロンプトを用いることで、MLLMはトレーニング中に回帰タスクを処理し、推論中に臨床的に関連する説明を生成することができる。微調整されたモデルでは、95%の信頼区間が 0.78 から 1.52 週間の低い予測誤差を達成し、一方で、発達的特徴に基づく解釈可能な出力を生成する。
論文参考訳（メタデータ） (2025-08-04T15:35:36Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [21.831262938278915]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。 Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文参考訳（メタデータ） (2025-06-13T05:36:30Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文参考訳（メタデータ） (2025-02-02T16:57:03Z)
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文参考訳（メタデータ） (2025-01-21T15:41:20Z)
Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文参考訳（メタデータ） (2024-10-09T06:00:05Z)
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。 InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。 ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文参考訳（メタデータ） (2024-09-30T19:10:03Z)
Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文参考訳（メタデータ） (2024-09-13T04:06:00Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Exploiting prompt learning with pre-trained language models for Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文参考訳（メタデータ） (2022-10-29T09:18:41Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Providing reliability in Recommender Systems through Bernoulli Matrix Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。 BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文参考訳（メタデータ） (2020-06-05T14:24:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。