論文の概要: Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization
- arxiv url: http://arxiv.org/abs/2603.29901v1
- Date: Tue, 31 Mar 2026 15:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.751313
- Title: Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization
- Title(参考訳): マルチモーダルラジオロジー要約のための高頻度領域への選択的な視覚的注意
- Authors: Mst. Fahmida Sultana Naznin, Adnan Ibney Faruq, Mushfiqur Rahman, Niloy Kumar Mondal, Md. Mehedi Hasan Shawon, Md Rakibul Hasan,
- Abstract要約: ViTASは、アンサンブル誘導MedSAM2肺セグメンテーション、マルチビュー融合のためのクロスアテンション、シェープ誘導適応パッチクラスタリング、ViTを供給している階層的視覚トークン化を組み合わせた多段階パイプラインである。
以上の結果から,マルチモーダルラジオグラフィーの要約では,より関連性の高い視覚入力が十分であるだけでなく,優れていることが示唆された。
- 参考スコア(独自算出の注目度): 2.0037149928499827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated radiology report summarization aims to distill verbose findings into concise clinical impressions, but existing multimodal models often struggle with visual noise and fail to meaningfully improve over strong text-only baselines in the FINDINGS $\to$ IMPRESSION transformation. We challenge two prevailing assumptions: (1) that more visual input is always better, and (2) that multimodal models add limited value when findings already contain rich image-derived detail. Through controlled ablations on MIMIC-CXR benchmark, we show that selectively focusing on pathology-relevant visual patches rather than full images yields substantially better performance. We introduce ViTAS, Visual-Text Attention Summarizer, a multi-stage pipeline that combines ensemble-guided MedSAM2 lung segmentation, bidirectional cross-attention for multi-view fusion, Shapley-guided adaptive patch clustering, and hierarchical visual tokenization feeding a ViT. ViTAS achieves SOTA results with 29.25% BLEU-4 and 69.83% ROUGE-L, improved factual alignment in qualitative analysis, and the highest expert-rated human evaluation scores. Our findings demonstrate that less but more relevant visual input is not only sufficient but superior for multimodal radiology summarization.
- Abstract(参考訳): しかし,既存のマルチモーダルモデルは視覚ノイズに苦しむことが多く,FINDINGS $\to$ IMpressionION変換の強いテキストのみのベースラインよりも有意義に改善することができない。
我々は,(1)より視覚的な入力が常に優れていること,(2)発見が既にリッチな画像由来の詳細を含んでいる場合に,マルチモーダルモデルが限定的な価値を付加すること,の2つの仮定に挑戦する。
MIMIC-CXRベンチマークの補正により, フルイメージではなく, 病理関連視覚パッチに選択的に焦点を合わせることで, 性能が著しく向上することを示す。
ViTAS, Visual-Text Attention Summarizer, アンサンブル誘導MedSAM2肺セグメンテーション, 多視点融合のための双方向クロスアテンション, シェープ誘導適応パッチクラスタリング, 階層型視覚トークン化を組み合わせた多段階パイプラインについて紹介する。
ViTASは29.25%のBLEU-4と69.83%のROUGE-LでSOTAの結果を達成し、質的分析における実際のアライメントを改善した。
以上の結果から,マルチモーダルラジオグラフィーの要約では,より関連性の高い視覚入力が十分であるだけでなく,優れていることが示唆された。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文 参考訳(メタデータ) (2025-08-12T06:37:41Z) - Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports [11.734906190235066]
本稿では,2次元のアイデアを用いたCross-Modal Cluster-Guided Negative Smpling (CM-CGNS)法を提案する。
まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。
第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
論文 参考訳(メタデータ) (2025-06-13T11:08:16Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Dual Attention Model with Reinforcement Learning for Classification of Histology Whole-Slide Images [8.404881822414898]
デジタル全スライド画像(WSI)は一般に顕微鏡分解能で撮影され、広い空間データを包含する。
本稿では,病理医の視覚検査に触発された2つの主成分からなる新しい二重注意アプローチを提案する。
提案手法は,WSIの10%未満を高い倍率で処理しながら,最先端の手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-02-19T22:26:25Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。