論文の概要: Label-Efficient Data Augmentation with Video Diffusion Models for Guidewire Segmentation in Cardiac Fluoroscopy
- arxiv url: http://arxiv.org/abs/2412.16050v1
- Date: Fri, 20 Dec 2024 16:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:48.557726
- Title: Label-Efficient Data Augmentation with Video Diffusion Models for Guidewire Segmentation in Cardiac Fluoroscopy
- Title(参考訳): 心電図におけるガイドワイヤ分割のためのビデオ拡散モデルを用いたラベル効率の良いデータ拡張
- Authors: Shaoyan Pan, Yikang Liu, Lin Zhao, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun,
- Abstract要約: 深層学習法はワイヤセグメンテーションにおいて高い精度とロバスト性を示した。
これらの手法は、一般化可能性のためにかなりのデータセットを必要とする。
ラベル付き蛍光ビデオの大規模なコレクションを生成するためのフレーム一貫性拡散モデル(SF-VD)を提案する。
- 参考スコア(独自算出の注目度): 16.62770246342126
- License:
- Abstract: The accurate segmentation of guidewires in interventional cardiac fluoroscopy videos is crucial for computer-aided navigation tasks. Although deep learning methods have demonstrated high accuracy and robustness in wire segmentation, they require substantial annotated datasets for generalizability, underscoring the need for extensive labeled data to enhance model performance. To address this challenge, we propose the Segmentation-guided Frame-consistency Video Diffusion Model (SF-VD) to generate large collections of labeled fluoroscopy videos, augmenting the training data for wire segmentation networks. SF-VD leverages videos with limited annotations by independently modeling scene distribution and motion distribution. It first samples the scene distribution by generating 2D fluoroscopy images with wires positioned according to a specified input mask, and then samples the motion distribution by progressively generating subsequent frames, ensuring frame-to-frame coherence through a frame-consistency strategy. A segmentation-guided mechanism further refines the process by adjusting wire contrast, ensuring a diverse range of visibility in the synthesized image. Evaluation on a fluoroscopy dataset confirms the superior quality of the generated videos and shows significant improvements in guidewire segmentation.
- Abstract(参考訳): 介入型心電図ビデオにおけるガイドワイヤの正確なセグメンテーションは、コンピュータ支援ナビゲーションタスクに不可欠である。
深層学習法は、ワイヤセグメンテーションにおいて高い精度とロバスト性を示してきたが、それらは一般化可能性のために相当量のアノテートデータセットを必要としており、モデル性能を向上させるために広範囲なラベル付きデータの必要性を強調している。
この課題に対処するために、ラベル付き蛍光ビデオの大規模なコレクションを生成するためのSegmentation-Guided Frame-Consistency Video Diffusion Model (SF-VD)を提案する。
SF-VDは、シーン分布とモーション分布を独立にモデル化することで、限られたアノテーションでビデオを活用する。
まず、所定の入力マスクに応じて位置決めされたワイヤで2次元蛍光画像を生成してシーン分布をサンプリングし、その後、フレーム間のコヒーレンスをフレーム整合性戦略により、順次フレームを生成して動き分布をサンプリングする。
セグメンテーション誘導機構は、ワイヤコントラストを調整し、合成画像の様々な可視性を確保することにより、さらにプロセスを洗練させる。
フルオロスコープデータセットの評価により、生成されたビデオの品質が向上し、ガイドワイヤセグメンテーションの大幅な改善が見られた。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation [3.1977656204331684]
Deformable Neural Vessel Representations (DeNVeR)は、X線アンギオグラフィービデオにおける血管のセグメンテーションの教師なしアプローチである。
主な貢献は、新しい層ブートストラップ技術、平行血管運動損失、複雑な血管力学をモデル化するためのユーレリア運動場の統合である。
論文 参考訳(メタデータ) (2024-06-03T17:59:34Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Domain Adaptive Video Segmentation via Temporal Pseudo Supervision [46.38660541271893]
ビデオセマンティックセグメンテーションは、ラベル付きソースドメインから未ラベルのターゲットドメインに適応することで、制約をラベル付けするデータを緩和することができる。
我々は,対象映像から表現を効果的に表現するための一貫性トレーニングのアイデアを探索する,シンプルかつ効果的な方法である時間的擬似監督(TPS)を設計する。
TPSは実装が簡単で、訓練も安定しており、最先端技術と比較して優れた映像精度を実現する。
論文 参考訳(メタデータ) (2022-07-06T00:36:14Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。
整合性尺度がヒトの判断とよく相関していることを検証する。
生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文 参考訳(メタデータ) (2021-10-17T18:59:11Z) - Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文 参考訳(メタデータ) (2020-04-11T07:09:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。