論文の概要: RoiMAM: Region-of-Interest Medical Attention Model for Efficient Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2605.15561v1
- Date: Fri, 15 May 2026 03:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.155829
- Title: RoiMAM: Region-of-Interest Medical Attention Model for Efficient Vision-Language Understanding
- Title(参考訳): RoiMAM:効率的な視覚・言語理解のための関心領域医学的注意モデル
- Authors: Jiayan Yang, Zhuoyu Wu, Wenqi Fang,
- Abstract要約: VLM(Vision-Language Models)は、画像とテキストを共同で解釈することで、医療用視覚質問応答(MedVQA)を促進する。
RoiMAMは、トレーニング不要ROI生成モジュールとSemantic Selective Suppressionを統合して、病変関連領域にフォーカスする。
また, SLAKEでは約2%, PMC-VQAでは4.6%の精度で精度が向上した。
- 参考スコア(独自算出の注目度): 0.6159852905555453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) facilitate medical visual question answering (MedVQA) by jointly interpreting images and text. However, existing models typically depend on large architectures and closed-set answers, which limits their efficiency and potential clinical applicability. To overcome these shortcomings, we introduce RoiMAM, an efficient VLM. It integrates a training-free ROI Generation Module with Semantic Selective Suppression to focus on lesion-relevant regions, alongside a Text Prompt Enhancer module that provides modality-specific context without introducing training parameters. Compared to the widely used MedVInT-TD model, our design achieves efficient and accurate diagnosis at less than 20\% of the model size, while improving accuracy by approximately 2% on SLAKE and 4.6% on PMC-VQA.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像とテキストを共同で解釈することで、医療用視覚質問応答(MedVQA)を促進する。
しかし、既存のモデルは一般に大きなアーキテクチャとクローズドセットの回答に依存し、その効率性と潜在的な臨床応用性を制限する。
これらの欠点を克服するために,効率的なVLMであるRoiMAMを紹介する。
トレーニング不要のROI生成モジュールとSemantic Selective Suppressionを統合して、トレーニングパラメータを導入することなく、モダリティ固有のコンテキストを提供するText Prompt Enhancerモジュールとともに、病変関連リージョンに焦点を当てる。
MedVInT-TDモデルと比較すると, モデルサイズが20倍未満の精度で, SLAKEでは約2%, PMC-VQAでは4.6%の精度で精度が向上した。
関連論文リスト
- Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation [4.286815457787583]
Causal-SAM-LLMはLarge Language Models(LLM)を因果推論の役割に高める新しいフレームワークである。
第一に、Linguistic Adrial Disentanglement (LAD)は視覚言語モデルを用いて、融合した画像スタイルのリッチでテキストによる記述を生成する。
第2に、Test-Time Causal Intervention (TCI)は、LLMが臨床者の自然言語コマンドを解釈し、セグメント化デコーダの特徴をリアルタイムで変調する対話的なメカニズムを提供する。
論文 参考訳(メタデータ) (2025-07-04T13:52:16Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。