論文の概要: Mitigating Surgical Data Imbalance with Dual-Prediction Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2510.07345v1
- Date: Tue, 07 Oct 2025 20:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.629384
- Title: Mitigating Surgical Data Imbalance with Dual-Prediction Video Diffusion Model
- Title(参考訳): Dual-Prediction Video Diffusion Modelによる手術データ不均衡の軽減
- Authors: Danush Kumar Venkatesh, Adam Schmidt, Muhammad Abdullah Jamal, Omid Mohareri,
- Abstract要約: $SurgiFlowVid$は、表現不足のクラスの手術ビデオを生成するための、スパースでコントロール可能なビデオ拡散フレームワークである。
本研究は,行動認識,ツール存在検出,腹腔鏡下運動予測などの3つの課題にまたがる手術データセットに対するアプローチを検証した。
- 参考スコア(独自算出の注目度): 7.746379804154433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Surgical video datasets are essential for scene understanding, enabling procedural modeling and intra-operative support. However, these datasets are often heavily imbalanced, with rare actions and tools under-represented, which limits the robustness of downstream models. We address this challenge with $SurgiFlowVid$, a sparse and controllable video diffusion framework for generating surgical videos of under-represented classes. Our approach introduces a dual-prediction diffusion module that jointly denoises RGB frames and optical flow, providing temporal inductive biases to improve motion modeling from limited samples. In addition, a sparse visual encoder conditions the generation process on lightweight signals (e.g., sparse segmentation masks or RGB frames), enabling controllability without dense annotations. We validate our approach on three surgical datasets across tasks including action recognition, tool presence detection, and laparoscope motion prediction. Synthetic data generated by our method yields consistent gains of 10-20% over competitive baselines, establishing $SurgiFlowVid$ as a promising strategy to mitigate data imbalance and advance surgical video understanding methods.
- Abstract(参考訳): 手術用ビデオデータセットはシーン理解に不可欠であり、手続き的モデリングと術中サポートを可能にする。
しかしながら、これらのデータセットは、稀なアクションやツールが不足しているため、下流モデルのロバスト性に制限があるため、しばしば不均衡である。
SurgiFlowVid$はスパースで制御可能なビデオ拡散フレームワークで、表現不足なクラスの手術ビデオを生成する。
提案手法では,RGBフレームと光流を併用して2重予測拡散モジュールを導入し,時間的帰納バイアスを与え,限られた試料からの運動モデリングを改善する。
さらに、スパース視覚エンコーダは、軽量信号(スパースセグメンテーションマスクやRGBフレームなど)の生成プロセスを条件とし、高密度アノテーションを使わずに制御可能である。
本研究は,行動認識,ツール存在検出,腹腔鏡下運動予測などを含む3つの課題にわたる手術的データセットに対するアプローチを検証する。
提案手法により生成した合成データは,競争ベースラインよりも10~20%向上し,SurgiFlowVid$をデータ不均衡を緩和し,手術ビデオ理解法を前進させる有望な戦略として確立した。
関連論文リスト
- Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models [56.2236083600999]
手術映像解析のための階層型入力依存状態空間モデルを提案する。
本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。
実験により,本手法は最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2025-06-26T14:43:57Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - SurgSora: Object-Aware Diffusion Model for Controllable Surgical Video Generation [25.963369099780113]
SurgSoraは、単一の入力フレームとユーザが指定したモーションキューから、高忠実でモーションコントロール可能な手術用ビデオを生成するフレームワークである。
SurgSoraは、これらのリッチな機能を安定ビデオ拡散に組み込むことで、最先端の視覚的信頼性と制御性を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:34:51Z) - Motion-Boundary-Driven Unsupervised Surgical Instrument Segmentation in Low-Quality Optical Flow [42.75298102809838]
教師なしビデオベースの手術器具セグメンテーションは、ロボット支援手順の採用を加速する可能性がある。
内視鏡画像における概して低品質の光学フローは、モーションキューに大きく依存する教師なしの方法にとって大きな課題となる。
本研究では,世界規模で低品質なフローを有するフレームを選択的に破棄しながら,急激なフロー変化を伴う領域の移動境界をピンポイントする手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T06:19:02Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。