論文の概要: Benchmarking Direct Preference Optimization for Medical Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.17918v1
- Date: Sun, 25 Jan 2026 17:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.535611
- Title: Benchmarking Direct Preference Optimization for Medical Large Vision-Language Models
- Title(参考訳): 医用大視領域モデルのベンチマーク直接選好最適化
- Authors: Dain Kim, Jiwoo Lee, Jaehoon Yun, Yong Hoe Koo, Qingyu Chen, Hyunjae Kim, Jaewoo Kang,
- Abstract要約: 医学領域内における多様なDPO変異の包括的検討を初めて行った。
現在のDPOアプローチでは、教師付き微調整よりも一貫性のない利得が得られることが多い。
彼らはしばしば、根本的な視覚的誤解釈の誤りを解決するのに失敗する。
- 参考スコア(独自算出の注目度): 19.558012394552954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) hold significant promise for medical applications, yet their deployment is often constrained by insufficient alignment and reliability. While Direct Preference Optimization (DPO) has emerged as a potent framework for refining model responses, its efficacy in high-stakes medical contexts remains underexplored, lacking the rigorous empirical groundwork necessary to guide future methodological advances. To bridge this gap, we present the first comprehensive examination of diverse DPO variants within the medical domain, evaluating nine distinct formulations across two medical LVLMs: LLaVA-Med and HuatuoGPT-Vision. Our results reveal several critical limitations: current DPO approaches often yield inconsistent gains over supervised fine-tuning, with their efficacy varying significantly across different tasks and backbones. Furthermore, they frequently fail to resolve fundamental visual misinterpretation errors. Building on these insights, we present a targeted preference construction strategy as a proof-of-concept that explicitly addresses visual misinterpretation errors frequently observed in existing DPO models. This design yields a 3.6% improvement over the strongest existing DPO baseline on visual question-answering tasks. To support future research, we release our complete framework, including all training data, model checkpoints, and our codebase at https://github.com/dmis-lab/med-vlm-dpo.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は医療応用において大きな可能性を秘めているが、その展開は整合性や信頼性の不足によって制約されることが多い。
直接選好最適化(DPO)は、モデル応答を精製する強力なフレームワークとして登場したが、そのハイテイクな医学的文脈における有効性は未解明のままであり、今後の方法論的進歩を導くために必要な厳密な経験的基盤が欠如している。
このギャップを埋めるために、医療領域内での多様なDPO変異の包括的検討を行い、LLaVA-MedとHuatuoGPT-Visionの2つの医療LVLMにまたがる9つの異なる定式化を評価した。
現在のDPOアプローチは、監督された微調整よりも不整合的な利得をもたらすことが多く、その効果はタスクやバックボーンによって大きく異なる。
さらに、基本的な視覚的誤解釈の誤りを解決できないこともしばしばある。
これらの知見に基づいて,既存のDPOモデルでよく見られる視覚的誤解釈の誤りに明示的に対処する概念実証として,対象とする嗜好構築戦略を提案する。
この設計は、視覚的質問応答タスクにおいて、既存の最強のDPOベースラインよりも3.6%改善されている。
将来の研究をサポートするため、私たちは、すべてのトレーニングデータ、モデルチェックポイント、そして、https://github.com/dmis-lab/med-vlm-dpoのコードベースを含む、完全なフレームワークをリリースします。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis [9.248806116103605]
医用診断用LVLMを併用したマルチモーダル検索モデルを開発した。
異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらす。
本モデルは,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2025-08-24T15:06:20Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。