論文の概要: Instruction-Free Tuning of Large Vision Language Models for Medical Instruction Following
- arxiv url: http://arxiv.org/abs/2603.19482v1
- Date: Thu, 19 Mar 2026 21:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.897375
- Title: Instruction-Free Tuning of Large Vision Language Models for Medical Instruction Following
- Title(参考訳): 医学教育後の大規模視覚言語モデルの指導自由チューニング
- Authors: Myeongkyun Kang, Soopil Kim, Xiaoxiao Li, Sang Hyun Park,
- Abstract要約: そこで本研究では,手書き命令への依存を軽減し,画像記述ペアのみを微調整に活用するインストラクションフリーチューニング手法を提案する。
提案手法は,SKINCON,WBCAtt,CBIS,MIMIC-CXRデータセットにまたがる複数の視覚的質問応答タスクにおける最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 34.366091321340576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision language models (LVLMs) have demonstrated impressive performance across a wide range of tasks. These capabilities largely stem from visual instruction tuning, which fine-tunes models on datasets consisting of curated image-instruction-output triplets. However, in the medical domain, constructing large-scale, high-quality instruction datasets is particularly challenging due to the need for specialized expert knowledge. To address this issue, we propose an instruction-free tuning approach that reduces reliance on handcrafted instructions, leveraging only image-description pairs for fine-tuning. Specifically, we introduce a momentum proxy instruction as a replacement for curated text instructions, which preserves the instruction-following capability of the pre-trained LVLM while promoting updates to parameters that remain valid during inference. Consequently, the fine-tuned LVLM can flexibly respond to domain-specific instructions, even though explicit instructions are absent during fine-tuning. Additionally, we incorporate a response shuffling strategy to mitigate the model's over-reliance on previous words, facilitating more effective fine-tuning. Our approach achieves state-of-the-art accuracy on multiple-choice visual question answering tasks across SKINCON, WBCAtt, CBIS, and MIMIC-CXR datasets, significantly enhancing the fine-tuning efficiency of LVLMs in medical domains.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、幅広いタスクにまたがって印象的な性能を示している。
これらの機能は、主に画像インストラクション出力三重項からなるデータセットの微調整モデルである視覚的インストラクションチューニングに起因している。
しかし,医学領域では専門知識を必要とするため,大規模かつ高品質な指導データセットの構築が特に困難である。
そこで本研究では,手書き命令への依存を軽減し,画像記述ペアのみを微調整に活用する,命令不要なチューニング手法を提案する。
具体的には、事前学習したLVLMの命令追従能力を保ちつつ、推論中に有効なパラメータの更新を促進させる、キュレートされたテキスト命令の代替として運動量プロキシ命令を導入する。
これにより、微調整中に明示的な命令が存在しない場合でも、細調整されたLVLMはドメイン固有の命令に柔軟に対応できる。
さらに、従来の単語に対するモデルの過度な依存を軽減するために、応答シャッフル戦略を導入し、より効果的な微調整を容易にする。
提案手法は,SKINCON,WBCAtt,CBIS,MIMIC-CXRデータセットにまたがる複数の視覚的質問応答タスクにおける最先端の精度を実現し,医療領域におけるLVLMの微調整効率を著しく向上させる。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。