論文の概要: MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video
- arxiv url: http://arxiv.org/abs/2408.03761v2
- Date: Wed, 30 Oct 2024 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 12:22:45.663124
- Title: MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video
- Title(参考訳): MMSummary:胎児超音波ビデオのためのマルチモーダル概要生成
- Authors: Xiaoqing Guo, Qianhui Men, J. Alison Noble,
- Abstract要約: 医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。
MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。
報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
- 参考スコア(独自算出の注目度): 13.231546105751015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first automated multimodal summary generation system, MMSummary, for medical imaging video, particularly with a focus on fetal ultrasound analysis. Imitating the examination process performed by a human sonographer, MMSummary is designed as a three-stage pipeline, progressing from keyframe detection to keyframe captioning and finally anatomy segmentation and measurement. In the keyframe detection stage, an innovative automated workflow is proposed to progressively select a concise set of keyframes, preserving sufficient video information without redundancy. Subsequently, we adapt a large language model to generate meaningful captions for fetal ultrasound keyframes in the keyframe captioning stage. If a keyframe is captioned as fetal biometry, the segmentation and measurement stage estimates biometric parameters by segmenting the region of interest according to the textual prior. The MMSummary system provides comprehensive summaries for fetal ultrasound examinations and based on reported experiments is estimated to reduce scanning time by approximately 31.5%, thereby suggesting the potential to enhance clinical workflow efficiency.
- Abstract(参考訳): 本稿では, 医療用画像撮影システムMMSummaryについて, 胎児超音波解析を中心に紹介する。
MMSummaryは、人間のソノグラフィーによる検査プロセスを省略し、3段階のパイプラインとして設計され、キーフレーム検出からキーフレームキャプション、最後に解剖学的セグメンテーションと測定へと進展する。
キーフレーム検出の段階では、キーフレームの簡潔なセットを段階的に選択し、冗長性のない十分な映像情報を保存するための革新的な自動化ワークフローが提案されている。
その後、大口径の言語モデルを用いて、胎児超音波のキーフレームをキーフレームキャプションの段階で意味のあるキャプションを生成する。
キーフレームが胎児のバイオメトリとしてキャプションされている場合、セグメンテーションと測定段階は、テキストの先行に基づいて関心領域をセグメンテーションすることで生体パラメータを推定する。
MMSummaryシステムは胎児超音波検査の総合的なサマリーを提供し、報告された実験に基づいてスキャン時間を約31.5%削減し、臨床ワークフロー効率を高める可能性を示唆している。
関連論文リスト
- Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。
本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。
また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2025-04-28T15:46:02Z) - Determining Fetal Orientations From Blind Sweep Ultrasound Video [1.3456699275044242]
この作品は、自動化された胎児の嘘予測を導入し、それを置き換えるのではなく、ソノグラフィーの専門知識を強化する補助パラダイムを提案することで、自分自身を区別している。
今後の研究は、取得効率の向上と、ワークフローを改善するためのリアルタイム臨床統合と、産科医のサポートに焦点をあてる。
論文 参考訳(メタデータ) (2025-04-09T12:51:15Z) - MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer [6.520396145278936]
本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。
MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-08T14:29:15Z) - Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis [9.530028450239394]
本システムは,映像と音声データの両方を解析するための音声キーワードスポッティング手法と,映像に基づく声門検出を統合している。
事前訓練されたオーディオエンコーダを使用して、患者の音声を符号化し、オーディオ機能を取得する。
左右両方の声帯の角度偏差を,分割した声門マスク上の推定声門正中線に測定することにより,視覚的特徴が生成される。
論文 参考訳(メタデータ) (2024-09-05T14:56:38Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Breast Ultrasound Report Generation using LangChain [58.07183284468881]
本稿では,Large Language Models (LLM) を用いたLangChainによる複数の画像解析ツールを胸部報告プロセスに統合することを提案する。
本手法は,超音波画像から関連する特徴を正確に抽出し,臨床的文脈で解釈し,包括的で標準化された報告を生成する。
論文 参考訳(メタデータ) (2023-12-05T00:28:26Z) - Multi-Task Learning Approach for Unified Biometric Estimation from Fetal
Ultrasound Anomaly Scans [0.8213829427624407]
本稿では,頭部,腹部,大腿骨に領域を分類するマルチタスク学習手法を提案する。
頭部周囲の平均絶対誤差は1.08mm,腹部周囲は1.44mm,大腿骨骨長は1.10mm,分類精度は99.91%であった。
論文 参考訳(メタデータ) (2023-11-16T06:35:02Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Global Multi-modal 2D/3D Registration via Local Descriptors Learning [0.3299877799532224]
本稿では,術前画像への超音波スイープの登録問題に対する新しいアプローチを提案する。
我々は、密度の高いキーポイント記述子を学び、そこから登録を見積もる。
本手法は, MRボリュームと超音波シーケンスを併用した臨床データセットを用いて評価した。
論文 参考訳(メタデータ) (2022-05-06T18:24:19Z) - Deep Learning for Ultrasound Beamforming [120.12255978513912]
受信した超音波エコーを空間画像領域にマッピングするビームフォーミングは、超音波画像形成チェーンの心臓に位置する。
現代の超音波イメージングは、強力なデジタル受信チャネル処理の革新に大きく依存している。
ディープラーニング手法は、デジタルビームフォーミングパイプラインにおいて魅力的な役割を果たす。
論文 参考訳(メタデータ) (2021-09-23T15:15:21Z) - Unsupervised multi-latent space reinforcement learning framework for
video summarization in ultrasound imaging [0.0]
新型コロナウイルス(COVID-19)のパンデミックは、超音波スキャンのトリアージを高速化するツールの必要性を強調している。
提案手法は,この方向への一歩である。
そこで我々は,新しい報酬を伴う教師なし強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T04:50:35Z) - FetalNet: Multi-task deep learning framework for fetal ultrasound
biometric measurements [11.364211664829567]
本稿では,FetalNetと呼ばれるマルチタスク・ニューラルネットワークについて,胎児超音波スキャン画像解析のためのアテンション機構とスタックモジュールを提案する。
胎児超音波画像解析の主な目的は、胎児の頭部、腹部、大腿骨を測定するための適切な基準面を見つけることである。
FetalNetという手法は,胎児超音波ビデオ記録における分類とセグメント化の両面で,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-07-14T19:13:33Z) - Hybrid Attention for Automatic Segmentation of Whole Fetal Head in
Prenatal Ultrasound Volumes [52.53375964591765]
胎児の頭部全体を米国全巻に分割する,最初の完全自動化ソリューションを提案する。
セグメント化タスクは、まずエンコーダ-デコーダディープアーキテクチャの下で、エンドツーエンドのボリュームマッピングとして定式化される。
次に,セグメンタとハイブリットアテンションスキーム(HAS)を組み合わせることで,識別的特徴を選択し,非情報量的特徴を抑える。
論文 参考訳(メタデータ) (2020-04-28T14:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。