論文の概要: Video CLIP Model for Multi-View Echocardiography Interpretation
- arxiv url: http://arxiv.org/abs/2504.18800v2
- Date: Tue, 26 Aug 2025 10:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.317312
- Title: Video CLIP Model for Multi-View Echocardiography Interpretation
- Title(参考訳): マルチビュー心エコー図読影のためのビデオCLIPモデル
- Authors: Ryo Takizawa, Satoshi Kodera, Tempei Kabayama, Ryo Matsuoka, Yuta Ando, Yuto Nakamura, Haruki Settai, Norihiko Takeda,
- Abstract要約: 5つの標準ビューから全映像シーケンスを処理するビデオ言語モデルを開発した。
ビデオ入力とマルチビュー支援による検索性能の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Echocardiography records ultrasound videos of the heart, enabling clinicians to assess cardiac function. Recent advances in large-scale vision-language models (VLMs) have spurred interest in automating echocardiographic interpretation. However, most existing medical VLMs rely on single-frame (image) inputs, which can reduce diagnostic accuracy for conditions identifiable only through cardiac motion. In addition, echocardiographic videos are captured from multiple views, each varying in suitability for detecting specific conditions. Leveraging multiple views may therefore improve diagnostic performance. We developed a video-language model that processes full video sequences from five standard views, trained on 60,747 echocardiographic video-report pairs. We evaluated the gains in retrieval performance from video input and multi-view support, including the contributions of various pretrained models.
- Abstract(参考訳): 心エコー法は心臓の超音波ビデオを記録し、臨床医が心臓機能を評価することを可能にする。
大規模視覚言語モデル(VLM)の最近の進歩は、心エコーの解釈を自動化することへの関心を喚起している。
しかしながら、既存の医療用VLMの多くはシングルフレーム(イメージ)入力に依存しており、心臓の動きによってのみ識別できる条件の診断精度を低下させることができる。
さらに、複数のビューから心エコービデオが撮影され、それぞれが特定の状態を検出するのに適している。
複数のビューを活用すれば診断性能が向上する可能性がある。
われわれは,60,747対の心エコービデオレポートでトレーニングした5つの標準ビューから全映像シーケンスを処理するビデオ言語モデルを開発した。
各種事前学習モデルのコントリビューションを含む,ビデオ入力とマルチビュー支援による検索性能の向上を評価した。
関連論文リスト
- SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer [6.520396145278936]
本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。
MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-08T14:29:15Z) - EchoFM: Foundation Model for Generalizable Echocardiogram Analysis [22.585990526913246]
心エコービデオの表現と解析に特化して設計された基礎モデルであるEchoFMを紹介する。
EchoFMでは,空間的および時間的変動の両方をキャプチャする自己教師型学習フレームワークを提案する。
我々は,290,000本以上の心エコービデオと最大2000万フレームの画像からなる広範囲なデータセット上で,我々のモデルを事前訓練した。
論文 参考訳(メタデータ) (2024-10-30T19:32:02Z) - EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation [1.0840985826142429]
私たちは、1200万以上のビデオレポートペアでトレーニングされた、マルチビュー、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
検索強化された解釈により、EchoPrimeはすべてのエコー心エコービデオから情報を総合的な研究に統合する。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-13T03:04:22Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Echocardiography video synthesis from end diastolic semantic map via
diffusion model [0.0]
本稿では,心臓ビデオ合成のために既存のビデオ拡散モデルを拡張し,課題に対処することを目的とする。
我々の焦点は、心循環中に初期フレームのセマンティックマップを用いてビデオを生成することであり、一般にエンドダイアストルと呼ばれる。
本モデルでは,FID,FVD,SSMIなどの複数の指標を用いて,標準拡散法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-11T02:08:05Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z) - Neural collaborative filtering for unsupervised mitral valve
segmentation in echocardiography [60.08918310097638]
心エコービデオの低次元埋め込みに基づく僧帽弁断面積自動制御法を提案する。
本法は, 各種僧帽弁疾患患者の心エコービデオと, 独立した検査コホートを用いて評価した。
これは、低品質ビデオやスパースアノテーションの場合には、最先端のインハンサーとエンファンサーの手法より優れている。
論文 参考訳(メタデータ) (2020-08-13T12:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。