Fugu-MT 論文翻訳(概要): Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

論文の概要: Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

arxiv url: http://arxiv.org/abs/2606.06534v1
Date: Wed, 03 Jun 2026 18:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.350804
Title: Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models
Title（参考訳）: ビジョンファウンデーションモデルによる縦断的医用質問応答の注意
Authors: Jialin Wu, Qianru Zhang, Georges El Fakhri, Xiaofeng Liu,
Abstract要約: 縦断的視覚的質問応答(VQA)は、現在の時点の画像と参照時点の画像との解剖学的差異について推論する必要がある。本稿では,胸部X線を用いた注意誘導型エンコーダデコーダを提案する。
参考スコア（独自算出の注目度）: 13.885785530570537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Longitudinal medical visual question answering (VQA) requires reasoning about anatomical differences between an image of a current time point and an image of a referred time point. We propose an attention-guided encoder-decoder for this task with chest X-rays. Instead of conventional direct contrast, we propose to include a lightweight affine registration module to reduce nuisance motion by co-registering the current image to the reference image with a small registration regularizer. The registered image pair is fed into the image encoder, followed by a frozen DINO-based mask generator and a trainable adaptive mask generator to produce masks applied to the original image pairs. The masked image pairs are again fed into the image encoder and concatenated with text features as the input to a multimodal transformer-based decoder to generate final answers. To facilitate learning stabilization and clarify the change signal, inspired by DINO-v3, we include additional auxiliary objectives, including a mask rebuilding loss, a pairwise Gram-style consistency loss, and a KoLeo uniformity loss, which enhances the geometry of the representation. On the Medical-Diff-VQA benchmark, the model delivers strong BLEU, ROUGE-L, CIDEr, and METEOR scores while offering intrinsic interpretability through the shared saliency mask. These results support saliency-conditioned generation with mild pre-alignment as a principled framework for longitudinal reasoning in medical VQA. Our training strategy also illustrates the potential of a paradigm in utilizing image foundation models in biomedicine: optimizing both supervised and unsupervised learning objectives simultaneously.
Abstract（参考訳）: 縦断的視覚的質問応答(VQA)は、現在の時点の画像と参照時点の画像との解剖学的差異について推論する必要がある。本稿では,胸部X線を用いた注意誘導型エンコーダデコーダを提案する。従来の直接コントラストに代えて,少ない登録レギュレータによる参照画像への現在の画像の同時登録によるニュアンス動作を低減する軽量アフィン登録モジュールを提案する。登録された画像対は、画像エンコーダに入力され、続いて凍結したDINOベースのマスク発生器と、トレーニング可能な適応マスク生成器により、元の画像対に適用されたマスクを生成する。マスクされた画像対を再びイメージエンコーダに入力し、マルチモーダルトランスフォーマーベースのデコーダへの入力としてテキスト特徴と連結して最終回答を生成する。 DINO-v3にインスパイアされた学習の安定化と変化信号を明らかにするため,マスク再構築損失,ペアワイズグラムスタイルの整合性損失,KoLeoの均一性損失などの補助的目的を含む。 Medical-Diff-VQAベンチマークでは、モデルは強いBLEU、ROUGE-L、CIDEr、METEORスコアを提供し、共有唾液マスクを通じて固有の解釈性を提供する。これらの結果は, 医療用VQAにおける縦断的推論の原則的枠組みとして, 軽度の事前調整を施した塩分濃度条件生成を支援する。我々のトレーニング戦略は、バイオメディシンにおけるイメージ基盤モデルを活用するためのパラダイムの可能性も示しており、教師なし学習と教師なし学習の両方を同時に最適化する。

関連論文リスト

Set-Based Groupwise Registration for Variable-Length, Variable-Contrast Cardiac MRI [5.342753447867402]
グループワイズ登録は、動き補正のためのペアワイズ登録よりもロバスト性が高い。 emphAnyTwoRegは、定量MRIシーケンスを未順序集合として取ります。ゼロショット方式で強力なクロスプロトコール一般化を実現する。
論文参考訳（メタデータ） (2026-05-11T13:41:22Z)
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。 VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文参考訳（メタデータ） (2025-11-28T17:26:34Z)
Saliency Guided Longitudinal Medical Visual Question Answering [9.991158264639209]
縦断的視覚的質問応答(Diff-VQA)は、異なる時間点からペアによる研究を比較する必要がある。本稿では, 胸部X線Diff-VQAのためのサリエンシ誘導型エンコーダデコーダを提案する。
論文参考訳（メタデータ） (2025-09-29T18:26:17Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。 VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文参考訳（メタデータ） (2022-12-21T02:48:15Z)
MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust Classifier [37.774220727662914]
単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。提案手法は,事前学習した準ロバスト分類器から構造勾配を利用する。 MAGICは入力上の勾配を集約し、ガイドバイナリマスクによって駆動される。
論文参考訳（メタデータ） (2022-09-23T12:15:40Z)
Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文参考訳（メタデータ） (2022-09-19T09:43:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。