論文の概要: Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.09858v1
- Date: Wed, 14 May 2025 23:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.138574
- Title: Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models
- Title(参考訳): ミッションバランス:ビデオ拡散モデルを用いた表現下クラスサンプルの生成
- Authors: Danush Kumar Venkatesh, Isabel Funke, Micha Pfeiffer, Fiona Kolbinger, Hanna Maria Schmeiser, Juergen Weitz, Marius Distler, Stefanie Speidel,
- Abstract要約: そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
- 参考スコア(独自算出の注目度): 1.5678321653327674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Computer-assisted interventions can improve intra-operative guidance, particularly through deep learning methods that harness the spatiotemporal information in surgical videos. However, the severe data imbalance often found in surgical video datasets hinders the development of high-performing models. In this work, we aim to overcome the data imbalance by synthesizing surgical videos. We propose a unique two-stage, text-conditioned diffusion-based method to generate high-fidelity surgical videos for under-represented classes. Our approach conditions the generation process on text prompts and decouples spatial and temporal modeling by utilizing a 2D latent diffusion model to capture spatial content and then integrating temporal attention layers to ensure temporal consistency. Furthermore, we introduce a rejection sampling strategy to select the most suitable synthetic samples, effectively augmenting existing datasets to address class imbalance. We evaluate our method on two downstream tasks-surgical action recognition and intra-operative event prediction-demonstrating that incorporating synthetic videos from our approach substantially enhances model performance. We open-source our implementation at https://gitlab.com/nct_tso_public/surgvgen.
- Abstract(参考訳): コンピュータ支援による介入は、特に手術ビデオの時空間情報を利用する深層学習法によって、術中指導を改善することができる。
しかし、外科的ビデオデータセットに見られる重度のデータ不均衡は、ハイパフォーマンスなモデルの開発を妨げることがしばしばある。
本研究では,手術ビデオの合成によってデータ不均衡を克服することを目的とする。
そこで本研究では,低表現クラスのための高忠実度手術ビデオを生成するために,ユニークな2段階のテキスト条件拡散法を提案する。
提案手法では,2次元潜時拡散モデルを用いて空間的コンテンツを抽出し,時間的一貫性を確保するために時間的注意層を統合することにより,テキストのプロンプトと時間的モデリングを分離する。
さらに、最も適切な合成サンプルを選択するための拒絶サンプリング戦略を導入し、クラス不均衡に対応するために既存のデータセットを効果的に増強する。
提案手法は,2つの下流タスク・サージカル・アクション認識と術中イベント予測・デモンストレーションで評価し,本手法から合成ビデオを取り込むことでモデル性能を大幅に向上させる。
実装はhttps://gitlab.com/nct_tso_public/surgvgen.comで公開しています。
関連論文リスト
- AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks [0.35087986342428684]
微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。
我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
論文 参考訳(メタデータ) (2025-03-16T14:51:12Z) - GAUDA: Generative Adaptive Uncertainty-guided Diffusion-based Augmentation for Surgical Segmentation [1.0808810256442274]
我々は、意味的に包括的でコンパクトな(イメージ、マスク)空間の潜在表現を学習する。
提案手法は,目立ったセマンティック・コヒーレンスを持つ高品質なセグメンテーションデータを効果的に合成できることを示す。
論文 参考訳(メタデータ) (2025-01-18T16:40:53Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。