論文の概要: Video CLIP Model for Multi-View Echocardiography Interpretation
- arxiv url: http://arxiv.org/abs/2504.18800v1
- Date: Sat, 26 Apr 2025 05:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.995239
- Title: Video CLIP Model for Multi-View Echocardiography Interpretation
- Title(参考訳): マルチビュー心エコー図読影のためのビデオCLIPモデル
- Authors: Ryo Takizawa, Satoshi Kodera, Tempei Kabayama, Ryo Matsuoka, Yuta Ando, Yuto Nakamura, Haruki Settai, Norihiko Takeda,
- Abstract要約: 我々は5つの異なるビューとフルビデオシーケンスを入力として取り込んだビデオ言語モデルを開発し、心エコービデオと臨床報告のペアでトレーニングする。
実験により, この拡張手法により, シングルビュー映像や静止画像のみを用いて訓練したモデルよりも高い解釈精度が得られることが示された。
- 参考スコア(独自算出の注目度): 0.4336394330456971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Echocardiography involves recording videos of the heart using ultrasound, enabling clinicians to evaluate its condition. Recent advances in large-scale vision-language models (VLMs) have garnered attention for automating the interpretation of echocardiographic videos. However, most existing VLMs proposed for medical interpretation thus far rely on single-frame (i.e., image) inputs. Consequently, these image-based models often exhibit lower diagnostic accuracy for conditions identifiable through cardiac motion. Moreover, echocardiographic videos are recorded from various views that depend on the direction of ultrasound emission, and certain views are more suitable than others for interpreting specific conditions. Incorporating multiple views could potentially yield further improvements in accuracy. In this study, we developed a video-language model that takes five different views and full video sequences as input, training it on pairs of echocardiographic videos and clinical reports from 60,747 cases. Our experiments demonstrate that this expanded approach achieves higher interpretation accuracy than models trained with only single-view videos or with still images.
- Abstract(参考訳): 心エコー法では、超音波を用いて心臓のビデオを録画し、臨床医がその状態を評価する。
大規模視覚言語モデル(VLM)の最近の進歩は、心エコービデオの解釈を自動化するために注目されている。
しかしながら、これまでの医学的解釈のために提案されたほとんどの既存のVLMはシングルフレーム(つまり画像)の入力に依存している。
したがって、これらの画像ベースモデルでは、心臓の動きによって識別できる条件の診断精度が低いことがしばしばある。
さらに, 超音波放射の方向に依存する様々な視点から心エコービデオが記録され, 特定の条件を解釈する上で, 特定の視点の方が適している。
複数のビューを組み込むことで、さらなる精度向上が期待できる。
本研究では,5つの異なるビューとフルビデオシーケンスを入力として取り込んだビデオ言語モデルを構築し,60,747例の心エコービデオと臨床報告を用いてトレーニングを行った。
実験により, この拡張手法により, シングルビュー映像や静止画像のみを用いて訓練したモデルよりも高い解釈精度が得られることが示された。
関連論文リスト
- EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer [6.520396145278936]
本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。
MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-08T14:29:15Z) - EchoFM: Foundation Model for Generalizable Echocardiogram Analysis [22.585990526913246]
心エコービデオの表現と解析に特化して設計された基礎モデルであるEchoFMを紹介する。
EchoFMでは,空間的および時間的変動の両方をキャプチャする自己教師型学習フレームワークを提案する。
我々は,290,000本以上の心エコービデオと最大2000万フレームの画像からなる広範囲なデータセット上で,我々のモデルを事前訓練した。
論文 参考訳(メタデータ) (2024-10-30T19:32:02Z) - EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation [1.0840985826142429]
私たちは、1200万以上のビデオレポートペアでトレーニングされた、マルチビュー、ビューインフォームド、ビデオベースの視覚言語基盤モデルであるEchoPrimeを紹介します。
検索強化された解釈により、EchoPrimeはすべてのエコー心エコービデオから情報を総合的な研究に統合する。
2つの独立した医療システムからのデータセットでは、EchoPrimeは23種類の心臓形態と機能のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-13T03:04:22Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Echocardiography video synthesis from end diastolic semantic map via
diffusion model [0.0]
本稿では,心臓ビデオ合成のために既存のビデオ拡散モデルを拡張し,課題に対処することを目的とする。
我々の焦点は、心循環中に初期フレームのセマンティックマップを用いてビデオを生成することであり、一般にエンドダイアストルと呼ばれる。
本モデルでは,FID,FVD,SSMIなどの複数の指標を用いて,標準拡散法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-11T02:08:05Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z) - Neural collaborative filtering for unsupervised mitral valve
segmentation in echocardiography [60.08918310097638]
心エコービデオの低次元埋め込みに基づく僧帽弁断面積自動制御法を提案する。
本法は, 各種僧帽弁疾患患者の心エコービデオと, 独立した検査コホートを用いて評価した。
これは、低品質ビデオやスパースアノテーションの場合には、最先端のインハンサーとエンファンサーの手法より優れている。
論文 参考訳(メタデータ) (2020-08-13T12:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。