Fugu-MT 論文翻訳(概要): Beyond Independent Frames: Latent Attention Masked Autoencoders for Multi-View Echocardiography

論文の概要: Beyond Independent Frames: Latent Attention Masked Autoencoders for Multi-View Echocardiography

arxiv url: http://arxiv.org/abs/2604.15096v1
Date: Thu, 16 Apr 2026 14:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.960393
Title: Beyond Independent Frames: Latent Attention Masked Autoencoders for Multi-View Echocardiography
Title（参考訳）: 独立フレームを超えて:マルチビュー心エコー法のための潜在注意マスク付きオートエンコーダ
Authors: Simon Böhi, Irene Cannistraci, Sergio Muñoz Gonzalez, Moritz Vandenhirtz, Sonia Laguna, Samuel Ruiperez-Campillo, Max Krähenmann, Andrea Agostini, Ece Ozkan, Thomas M. Sutter, Julia E. Vogt,
Abstract要約: 医療画像のマルチビュー特性に合わせた基礎モデルアーキテクチャであるLAMAE(Latent Attention Masked Autocoder)を紹介する。 LAMAEは標準のMAEを潜在注意モジュールで拡張し、フレームとビューを直接潜在空間で情報交換できる。
参考スコア（独自算出の注目度）: 18.218981066770514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Echocardiography is a widely used modality for cardiac assessment due to its non-invasive and cost-effective nature, but the sparse and heterogeneous spatiotemporal views of the heart pose distinct challenges. Existing masked autoencoder (MAE) approaches typically process images or short clips independently, failing to capture the inherent multi-view structure required for coherent cardiac representation. We introduce Latent Attention Masked Autoencoder (LAMAE), a foundation model architecture tailored to the multi-view nature of medical imaging. LAMAE augments the standard MAE with a latent attention module that enables information exchange across frames and views directly in latent space. This allows the model to aggregate variable-length sequences and distinct views, reconstructing a holistic representation of cardiac function from partial observations. We pretrain LAMAE on MIMIC-IV-ECHO, a large-scale, uncurated dataset reflecting real-world clinical variability. To the best of our knowledge, we present the first results for predicting ICD-10 codes from MIMIC-IV-ECHO videos. Furthermore, we empirically demonstrate that representations learned from adult data transfer effectively to pediatric cohorts despite substantial anatomical differences. These results provide evidence that incorporating structural priors, such as multi-view attention, yields significantly more robust and transferable representations.
Abstract（参考訳）: エコー心エコー法は非侵襲的で費用対効果の低い心臓評価法として広く用いられているが、心臓の細い時空間的視野は異なる課題を呈している。既存のマスク付きオートエンコーダ(MAE)アプローチは通常、画像やショートクリップを独立に処理し、コヒーレントな心臓表現に必要な固有の多視点構造を捉えない。医療画像のマルチビュー特性に合わせた基礎モデルアーキテクチャであるLAMAE(Latent Attention Masked Autoencoder)を紹介する。 LAMAEは標準のMAEを潜在注意モジュールで拡張し、フレームとビューを直接潜在空間で情報交換できる。これにより、モデルが可変長シーケンスと異なるビューを集約し、部分的な観察から心臓機能の全体像を再構築することができる。 LAMAEをMIMIC-IV-ECHOで事前訓練した。我々の知る限り、MIMIC-IV-ECHOビデオからICD-10コードを予測するための最初の結果を示す。さらに, 解剖学的に有意な差はあるものの, 成人データ伝達から得られた表現が小児コホートに効果的に伝達されることを実証的に示す。これらの結果は、マルチビューアテンションのような構造的事前を組み込むことで、より堅牢で伝達可能な表現が得られることを示す。

関連論文リスト

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。 EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文参考訳（メタデータ） (2026-03-07T09:43:49Z)
Enabling Ultra-Fast Cardiovascular Imaging Across Heterogeneous Clinical Environments with a Generalist Foundation Model and Multimodal Database [64.65360708629485]
MMCMR-427Kは、最大かつ最も包括的なマルチモーダル心血管共鳴k空間データベースである。 CardioMMは、異種高速CMRイメージングシナリオに適応可能な再構成基盤モデルである。 CardioMMは、物理インフォームドデータ一貫性と意味的文脈理解を統合して、堅牢な再構築を実現する。
論文参考訳（メタデータ） (2025-12-25T12:47:50Z)
Echo-CoPilot: A Multi-View, Multi-Task Agent for Echocardiography Interpretation and Reporting [8.162197738994479]
本稿では,多視点マルチタスクエージェントであるEcho-CoPilotを紹介する。 ReActスタイルのループ内で、エージェントは臨床クエリを分解し、ビュー認識、心臓構造セグメンテーション、測定と疾患予測、およびレポート合成のためのツールを起動する。公開MIMIC-EchoQAベンチマークでEcho-CoPilotを評価し、50.8%の精度で、汎用的およびバイオメディカルなビデオビジョン言語モデルよりも優れています。
論文参考訳（メタデータ） (2025-12-06T23:27:54Z)
CardiacCLIP: Video-based CLIP Adaptation for LVEF Prediction in a Few-shot Manner [14.429336783145644]
左室放出分画(LVEF)は心臓機能の指標となる。既存のLVEF推定手法は、大規模な注釈付きビデオデータセットに依存する。我々は、注目ベースのフレームアグリゲーションとマルチレゾリューション・インプット・スケーリングによるLVEF予測を強化する、ビデオベースのフレームワークであるCardiacCLIPを提案する。
論文参考訳（メタデータ） (2025-09-21T12:52:08Z)
Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文参考訳（メタデータ） (2025-04-29T01:26:02Z)
Efficient Multi-View Fusion and Flexible Adaptation to View Missing in Cardiovascular System Signals [4.519437028632205]
深層学習は、心臓血管系(CVS)信号に関する自動多視点融合(MVF)を促進する。 MVFモデルアーキテクチャは、しばしば同じ時間ステップからCVS信号と一致するが、統一された表現に異なる視点を持つ。本稿では,事前学習したMVFモデルに対して,様々なシナリオに柔軟に対応するためのプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-06-13T08:58:59Z)
MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer [0.257133335028485]
マンモグラフィ画像分類における課題に対処するために,トランスフォーマーに基づく革新的なマルチビューネットワークを提案する。提案手法では,ウィンドウベースの動的アテンションブロックを導入し,マルチビュー情報の効果的な統合を容易にする。
論文参考訳（メタデータ） (2024-02-26T04:41:04Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
MEDUSA: Multi-scale Encoder-Decoder Self-Attention Deep Neural Network Architecture for Medical Image Analysis [71.2022403915147]
医用画像解析に適したマルチスケールエンコーダデコーダ自己保持機構であるMEDUSAを紹介する。我々は、COVIDx、RSNA RICORD、RSNA Pneumonia Challengeなどの医療画像分析ベンチマークの最先端性能を得た。
論文参考訳（メタデータ） (2021-10-12T15:05:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。