論文の概要: LDP: Parameter-Efficient Fine-Tuning of Multimodal LLM for Medical Report Generation
- arxiv url: http://arxiv.org/abs/2512.10750v1
- Date: Thu, 11 Dec 2025 15:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.449825
- Title: LDP: Parameter-Efficient Fine-Tuning of Multimodal LLM for Medical Report Generation
- Title(参考訳): 医療報告作成のためのマルチモーダルLCMのパラメータ効率の良い微調整
- Authors: Tianyu Zhou, Junyi Tang, Zehui Li, Dahong Qian, Suncheng Xiang,
- Abstract要約: 早期大腸癌の診断には大腸内視鏡的診断が重要である。
従来の自動報告は、高品質なマルチモーダル医療データの不足により、矛盾や幻覚に悩まされている。
本稿では,MLLM(Multimodal large language model)を利用したプロの診断報告生成のための新しいフレームワーク LDP を提案する。
- 参考スコア(独自算出の注目度): 11.77291778908787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Colonoscopic polyp diagnosis is pivotal for early colorectal cancer detection, yet traditional automated reporting suffers from inconsistencies and hallucinations due to the scarcity of high-quality multimodal medical data. To bridge this gap, we propose LDP, a novel framework leveraging multimodal large language models (MLLMs) for professional polyp diagnosis report generation. Specifically, we curate MMEndo, a multimodal endoscopic dataset comprising expert-annotated colonoscopy image-text pairs. We fine-tune the Qwen2-VL-7B backbone using Parameter-Efficient Fine-Tuning (LoRA) and align it with clinical standards via Direct Preference Optimization (DPO). Extensive experiments show that our LDP outperforms existing baselines on both automated metrics and rigorous clinical expert evaluations (achieving a Physician Score of 7.2/10), significantly reducing training computational costs by 833x compared to full fine-tuning. The proposed solution offers a scalable, clinically viable path for primary healthcare, with additional validation on the IU-XRay dataset confirming its robustness.
- Abstract(参考訳): 大腸内視鏡的ポリープ診断は早期大腸癌の診断に重要であるが、従来の自動診断は高品質なマルチモーダル医療データの不足による不整合や幻覚に悩まされている。
このギャップを埋めるために,多モーダル大言語モデル(MLLM)を利用したプロのポリープ診断レポート生成のための新しいフレームワーク LDP を提案する。
具体的には,専門家による大腸内視鏡画像とテキストのペアからなる多モード内視鏡的データセットであるMMEndoをキュレートする。
パラメータ効率の良いファインチューニング(LoRA)を用いてQwen2-VL-7Bのバックボーンを微調整し,DPO(Direct Preference Optimization)を介して臨床標準と整合させる。
総合的な実験の結果, LDPは, 自動測定と厳格な臨床専門的評価の両面において, 既存のベースラインよりも優れており, 完全微調整と比較して, トレーニング計算コストを833倍に削減できることがわかった。
提案したソリューションは、プライマリヘルスケアにスケーラブルで、臨床的に実行可能なパスを提供し、その堅牢性を確認するIU-XRayデータセットに対するさらなる検証を提供する。
関連論文リスト
- From Prompt Optimization to Multi-Dimensional Credibility Evaluation: Enhancing Trustworthiness of Chinese LLM-Generated Liver MRI Reports [13.226827332616134]
大言語モデル (LLM) は画像所見から診断結果を生成する上で有望な性能を示した。
本研究は, MDCA (Multi-dimensional Credibility Assessment) フレームワークの導入により, LLM産生肝MRIの信頼性を高めることを目的とする。
論文 参考訳(メタデータ) (2025-10-27T04:57:20Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - NeuroMoE: A Transformer-Based Mixture-of-Experts Framework for Multi-Modal Neurological Disorder Classification [3.5313393560458826]
Deep Learningは最近、診断を助けるために医療データから意味のあるパターンを抽出する強力なツールとして登場した。
神経疾患を分類するための新しいトランスフォーマーベースのMixture-of-Experts(MoE)フレームワークを提案する。
我々のフレームワークは82.47%の検証精度を達成し、ベースライン法を10%以上上回っている。
論文 参考訳(メタデータ) (2025-06-17T20:40:06Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization [25.937453082034448]
我々は,新しいマルチモーダル医療優先最適化手法MMedPOを提案する。
MMedPOは、Med-LVLMアライメントを高めるために、嗜好サンプルの臨床的関連性を考慮する。
実験の結果,MMedPOはMed-LVLMの精度を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-09T01:50:39Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。