論文の概要: MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer
- arxiv url: http://arxiv.org/abs/2504.06088v1
- Date: Tue, 08 Apr 2025 14:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:53.205307
- Title: MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer
- Title(参考訳): MCAT:マルチタイア級トケ変換器を用いた胎児超音波映像における標準的な解剖学的クリップの視覚的局所化
- Authors: Divyanshu Mishra, Pramit Saha, He Zhao, Netzahualcoyotl Hernandez-Cruz, Olga Patey, Aris Papageorghiou, J. Alison Noble,
- Abstract要約: 本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。
MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 6.520396145278936
- License:
- Abstract: Accurate standard plane acquisition in fetal ultrasound (US) videos is crucial for fetal growth assessment, anomaly detection, and adherence to clinical guidelines. However, manually selecting standard frames is time-consuming and prone to intra- and inter-sonographer variability. Existing methods primarily rely on image-based approaches that capture standard frames and then classify the input frames across different anatomies. This ignores the dynamic nature of video acquisition and its interpretation. To address these challenges, we introduce Multi-Tier Class-Aware Token Transformer (MCAT), a visual query-based video clip localization (VQ-VCL) method, to assist sonographers by enabling them to capture a quick US sweep. By then providing a visual query of the anatomy they wish to analyze, MCAT returns the video clip containing the standard frames for that anatomy, facilitating thorough screening for potential anomalies. We evaluate MCAT on two ultrasound video datasets and a natural image VQ-VCL dataset based on Ego4D. Our model outperforms state-of-the-art methods by 10% and 13% mIoU on the ultrasound datasets and by 5.35% mIoU on the Ego4D dataset, using 96% fewer tokens. MCAT's efficiency and accuracy have significant potential implications for public health, especially in low- and middle-income countries (LMICs), where it may enhance prenatal care by streamlining standard plane acquisition, simplifying US-based screening, diagnosis and allowing sonographers to examine more patients.
- Abstract(参考訳): 胎児超音波(US)ビデオにおける正確な標準平面取得は、胎児の成長評価、異常検出、臨床ガイドラインの遵守に不可欠である。
しかし,標準フレームを手動で選択することは時間を要するため,音韻内および音韻間変動が生じる傾向にある。
既存の手法は主に画像ベースのアプローチに依存しており、標準的なフレームをキャプチャし、異なる解剖学で入力フレームを分類する。
これはビデオ取得の動的な性質と解釈を無視している。
これらの課題に対処するために,VQ-VCL法であるMCAT(Multi-Tier Class-Aware Token Transformer)を導入する。
次に、分析したい解剖のビジュアルクエリを提供することで、MCATはその解剖の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
Ego4Dに基づく2つの超音波ビデオデータセットと自然画像VQ-VCLデータセットを用いたMCATの評価を行った。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
MCATの効率と精度は公衆衛生、特に低所得国や中所得国(LMICs)において大きな影響を与える可能性がある。
関連論文リスト
- Variable-frame CNNLSTM for Breast Nodule Classification using Ultrasound Videos [22.437678884189697]
本研究では,CNNとLSTMに基づく新しい映像分類手法を提案する。
CNNが抽出した画像の特徴を1x512次元に減らし、LSTMトレーニングのための特徴ベクトルのソートと圧縮を行う。
実験により,我々の可変フレームCNNLSTM法は,すべての指標において,他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T06:35:37Z) - A Multimodal Approach For Endoscopic VCE Image Classification Using BiomedCLIP-PubMedBERT [0.62914438169038]
本稿では,マルチモーダルモデルであるBiomedCLIP PubMedBERTの微細調整によるビデオカプセル内視鏡フレームの異常の分類について述べる。
本手法では, 血管拡張症, 出血, エロージョン, エリテマ, 異物, リンパ管拡張症, ポリープ, 潰瘍, ワーム, 正常の10種類の画像に分類する。
分類、精度、リコール、F1スコアなどのパフォーマンス指標は、内視鏡フレームの異常を正確に識別する強力な能力を示している。
論文 参考訳(メタデータ) (2024-10-25T19:42:57Z) - MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video [13.231546105751015]
医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。
MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。
報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-07T13:30:58Z) - Measuring proximity to standard planes during fetal brain ultrasound scanning [8.328549443700858]
本稿では,超音波(US)平面を臨床利用に近づけるための新しいパイプラインを提案する。
ラベル付きSPとラベルなしUSボリュームスライスの両方を利用した半教師付きセグメンテーションモデルを提案する。
本モデルでは, 胎児の脳画像に対して, 信頼性の高いセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-04-10T16:04:21Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Automated interpretation of congenital heart disease from multi-view
echocardiograms [10.238433789459624]
先天性心疾患(CHD)は、中国で最も多い出生障害であり、新生児死亡の原因となっている。
本研究では,多視点心エコー図を実用的エンドツーエンドのフレームワークで自動解析する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:37:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。