論文の概要: Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning
- arxiv url: http://arxiv.org/abs/2510.25164v2
- Date: Fri, 31 Oct 2025 01:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.431291
- Title: Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning
- Title(参考訳): 医用トランスフォーマー : 医用画像キャプションのための視覚言語アライメントの改善
- Authors: Yogesh Thakku Suresh, Vishwajeet Shivaji Hogale, Luca-Alexandru Zamfira, Anandavardhana Hegde,
- Abstract要約: MRIスキャンの臨床的なキャプションを生成するためのトランスフォーマーベースのフレームワークを提案する。
本システムでは,画像エンコーダとしてDiT-Small視覚変換器,キャプション埋め込み用のMediCareBERT,カスタムLSTMデコーダを組み合わせた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a transformer-based multimodal framework for generating clinically relevant captions for MRI scans. Our system combines a DEiT-Small vision transformer as an image encoder, MediCareBERT for caption embedding, and a custom LSTM-based decoder. The architecture is designed to semantically align image and textual embeddings, using hybrid cosine-MSE loss and contrastive inference via vector similarity. We benchmark our method on the MultiCaRe dataset, comparing performance on filtered brain-only MRIs versus general MRI images against state-of-the-art medical image captioning methods including BLIP, R2GenGPT, and recent transformer-based approaches. Results show that focusing on domain-specific data improves caption accuracy and semantic alignment. Our work proposes a scalable, interpretable solution for automated medical image reporting.
- Abstract(参考訳): MRIスキャンの臨床的なキャプションを生成するためのトランスフォーマーベースのマルチモーダルフレームワークを提案する。
本システムでは,画像エンコーダとしてDiT-Small視覚変換器,キャプション埋め込み用のMediCareBERT,カスタムLSTMデコーダを組み合わせた。
このアーキテクチャは、ハイブリッドコサインMSE損失とベクトル類似性によるコントラスト推論を用いて、画像とテキストの埋め込みを意味的に整合させるように設計されている。
提案手法をMultiCaReデータセット上でベンチマークし、フィルタリング脳のみのMRI画像と一般MRI画像のパフォーマンスを比較し、BLIP、R2GenGPT、最近のトランスフォーマーベースアプローチを含む最先端の医療画像キャプション手法と比較した。
その結果、ドメイン固有のデータに焦点を当てることで、キャプションの精度とセマンティックアライメントが改善された。
我々の研究は、医療画像の自動レポートのためのスケーラブルで解釈可能なソリューションを提案する。
関連論文リスト
- RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Rethinking Perceptual Metrics for Medical Image Translation [11.930968669340864]
このサブフィールドの解剖学的制約に乏しいため,知覚的指標がセグメンテーション指標と相関しないことを示す。
より少ないピクセルレベルのSWDメートル法は, 微妙なモダリティ内翻訳に有用であると考えられた。
論文 参考訳(メタデータ) (2024-04-10T19:39:43Z) - ContourDiff: Unpaired Image-to-Image Translation with Structural Consistency for Medical Imaging [14.487188068402178]
適切な翻訳のために考慮すべき領域間の構造バイアスを定量化するための新しい指標を導入する。
次に、ドメイン不変な解剖学的輪郭表現を利用する新しい画像から画像への変換アルゴリズムであるContourDiffを提案する。
腰部脊柱管拡大術と大腿部CT-to-MRIの術式について検討した。
論文 参考訳(メタデータ) (2024-03-16T03:33:52Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Few-shot Medical Image Segmentation via Cross-Reference Transformer [3.2634122554914]
Few-shot segmentation(FSS)は、少数のラベル付きサンプルから新しいカテゴリを学習することで、これらの課題に対処する可能性がある。
そこで本研究では,クロス参照変換器を用いた画像分割ネットワークを提案する。
実験の結果,CTデータセットとMRIデータセットの両方で良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-19T13:05:18Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Vision Transformers in Medical Imaging: A Review [0.0]
注目に基づくエンコーダ・デコーダアーキテクチャからなるモデルであるTransformerは、自然言語処理(NLP)の分野で普及している。
本稿では,医療画像におけるトランスフォーマーの適用を包括的かつ最近のレビューとして,コンボリューショナルニューラルネットワーク(CNN)の多様性と比較したトランスフォーマーモデルについて述べる。
論文 参考訳(メタデータ) (2022-11-18T05:52:37Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。