論文の概要: Image-to-Text for Medical Reports Using Adaptive Co-Attention and Triple-LSTM Module
- arxiv url: http://arxiv.org/abs/2503.18297v1
- Date: Mon, 24 Mar 2025 03:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:19.949871
- Title: Image-to-Text for Medical Reports Using Adaptive Co-Attention and Triple-LSTM Module
- Title(参考訳): Adaptive Co-Attention と Triple-LSTM Module を用いた医用レポート用画像テキスト作成
- Authors: Yishen Liu, Shengda Liu, Hudan Pan,
- Abstract要約: 医療報告の生成には、一般的な大型モデルが正確に把握できないような専門的な専門知識が必要である。
本稿では、トランスフォーマーアーキテクチャとマルチLSTMネットワークを組み合わせたディープラーニングモデルであるマルチモーダルモデル、コアテンショントリプルLSTMネットワーク(CA-TriNet)を提案する。
私たちのディープラーニングモデルは、包括的能力の観点から最先端のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 0.25602836891933073
- License:
- Abstract: Medical report generation requires specialized expertise that general large models often fail to accurately capture. Moreover, the inherent repetition and similarity in medical data make it difficult for models to extract meaningful features, resulting in a tendency to overfit. So in this paper, we propose a multimodal model, Co-Attention Triple-LSTM Network (CA-TriNet), a deep learning model that combines transformer architectures with a Multi-LSTM network. Its Co-Attention module synergistically links a vision transformer with a text transformer to better differentiate medical images with similarities, augmented by an adaptive weight operator to catch and amplify image labels with minor similarities. Furthermore, its Triple-LSTM module refines generated sentences using targeted image objects. Extensive evaluations over three public datasets have demonstrated that CA-TriNet outperforms state-of-the-art models in terms of comprehensive ability, even pre-trained large language models on some metrics.
- Abstract(参考訳): 医療報告の生成には、一般的な大型モデルが正確に把握できないような専門的な専門知識が必要である。
さらに、医療データに固有の反復と類似性により、モデルが意味のある特徴を抽出することが難しくなり、結果として過度に適合する傾向が生じる。
そこで本稿では,トランスフォーマーアーキテクチャとマルチLSTMネットワークを組み合わせた深層学習モデルであるCo-Attention Triple-LSTM Network(CA-TriNet)を提案する。
Co-Attentionモジュールは、視覚変換器とテキスト変換器を相乗的に結びつけて、類似性のある医用画像をよりよく区別し、適応重み演算器によって、小さな類似性のある画像ラベルをキャッチして増幅する。
さらに、Triple-LSTMモジュールは、ターゲット画像オブジェクトを使用して生成された文を洗練する。
3つの公開データセットに対する大規模な評価では、CA-TriNetは、いくつかのメトリクスで事前訓練された大きな言語モデルであっても、包括的な能力の観点から最先端モデルよりも優れていることが示されている。
関連論文リスト
- MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Adaptive Latent Diffusion Model for 3D Medical Image to Image
Translation: Multi-modal Magnetic Resonance Imaging Study [4.3536336830666755]
医用画像解析において,マルチモーダル画像は包括的評価において重要な役割を担っている。
臨床実践では、スキャンコスト、スキャン時間制限、安全性考慮などの理由から、複数のモダリティを取得することは困難である。
本稿では,3次元医用画像のイメージ・ツー・イメージ翻訳において,パッチ・トリッピングを伴わない切り換え可能なブロックを利用するモデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T03:22:57Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Multiscale Metamorphic VAE for 3D Brain MRI Synthesis [5.060516201839319]
3次元脳MRIの創発的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成することの難しさを示す。
本研究では, この課題に対して, 可変オートエンコーダフレームワークにおける構成可能なマルチスケール形態素変換を用いて対処することを提案する。
VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。
論文 参考訳(メタデータ) (2023-01-09T09:15:30Z) - Retrieval-Augmented Multimodal Language Modeling [176.9150885247416]
DALL-EやCM3のようなマルチモーダルモデルは、テキスト・ツー・イメージと画像・ツー・テキスト生成において顕著な進歩を遂げている。
ベースマルチモーダルモデルでは,検索者が外部メモリから取得した関連テキストや画像を参照することができる。
我々の生成したモデルであるRetrieval-Augmented CM3は、テキストと画像の両方を検索して生成できる最初のマルチモーダルモデルである。
論文 参考訳(メタデータ) (2022-11-22T20:26:44Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。