論文の概要: Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning
- arxiv url: http://arxiv.org/abs/2505.18503v1
- Date: Sat, 24 May 2025 04:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.464278
- Title: Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning
- Title(参考訳): 問題に焦点をあてて:自動アテンション調整による医用ビジョンランゲージモデルの強化
- Authors: Aofei Chang, Le Huang, Alex James Boyd, Parminder Bhatia, Taha Kass-Hout, Cao Xiao, Fenglong Ma,
- Abstract要約: 自動アテンション調整のためのファインチューニングフレームワークであるA$3$Tuneを提案する。
A$3$Tune は SAM のゼロショット弱ラベルを活用し、BioMedCLIP を用いてプロンプト認識ラベルに洗練し、視覚的に重要なアテンションヘッドを選択的に修正し、干渉を最小限に抑えながらアライメントを改善する。
医療用VQAとレポート生成ベンチマークの実験から、A$3$Tuneは最先端のベースラインを上回り、Med-LVLMの注意分布と性能の向上を実現している。
- 参考スコア(独自算出の注目度): 35.97855906321209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Large Vision-Language Models (Med-LVLMs) often exhibit suboptimal attention distribution on visual inputs, leading to hallucinated or inaccurate outputs. Existing mitigation methods primarily rely on inference-time interventions, which are limited in attention adaptation or require additional supervision. To address this, we propose A$^3$Tune, a novel fine-tuning framework for Automatic Attention Alignment Tuning. A$^3$Tune leverages zero-shot weak labels from SAM, refines them into prompt-aware labels using BioMedCLIP, and then selectively modifies visually-critical attention heads to improve alignment while minimizing interference. Additionally, we introduce a A$^3$MoE module, enabling adaptive parameter selection for attention tuning across diverse prompts and images. Extensive experiments on medical VQA and report generation benchmarks show that A$^3$Tune outperforms state-of-the-art baselines, achieving enhanced attention distributions and performance in Med-LVLMs.
- Abstract(参考訳): Med-LVLMs (Med-LVLMs) はしばしば視覚入力に最適以下の注意分布を示し、幻覚的または不正確な出力をもたらす。
既存の緩和法は主に推論時間の介入に依存しており、注意の適応に制限されるか、追加の監督を必要とする。
そこで本稿では,自動アテンション調整のためのファインチューニングフレームワークであるA$^3$Tuneを提案する。
A$3$TuneはSAMのゼロショット弱ラベルを活用し、BioMedCLIPを使用してプロンプト認識ラベルに洗練し、視覚的に重要なアテンションヘッドを選択的に修正し、干渉を最小限に抑えながらアライメントを改善する。
さらに,A$^3$MoEモジュールを導入し,様々なプロンプトや画像にまたがるアテンションチューニングのための適応パラメータ選択を可能にする。
医療用VQAとレポート生成ベンチマークの大規模な実験により、A$^3$Tuneは最先端のベースラインを上回り、Med-LVLMの注意分布と性能の向上を実現している。
関連論文リスト
- Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization [25.937453082034448]
我々は,新しいマルチモーダル医療優先最適化手法MMedPOを提案する。
MMedPOは、Med-LVLMアライメントを高めるために、嗜好サンプルの臨床的関連性を考慮する。
実験の結果,MMedPOはMed-LVLMの精度を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-09T01:50:39Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - SLPT: Selective Labeling Meets Prompt Tuning on Label-Limited Lesion
Segmentation [57.37875162629063]
本稿では,限定ラベルの性能向上のために,選択的ラベリングと即時チューニングを組み合わせたフレームワークを提案する。
肝腫瘍の分節化について検討し, 従来の微調整を6%程度で達成した。
論文 参考訳(メタデータ) (2023-08-09T12:22:49Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。