論文の概要: Towards Controllable Video Synthesis of Routine and Rare OR Events
- arxiv url: http://arxiv.org/abs/2602.21365v1
- Date: Tue, 24 Feb 2026 20:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.606784
- Title: Towards Controllable Video Synthesis of Routine and Rare OR Events
- Title(参考訳): ルーチンとレアORイベントの制御可能なビデオ合成に向けて
- Authors: Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri, Vishalroshan Anil, Aiza Maksutova, Yiqing Shen, Jan Emily Mangulabnan, Hao Ding, Jose L. Porras, Masaru Ishii, Mathias Unberath,
- Abstract要約: 本研究は、レアおよびセーフティクリティカル事象の制御合成を可能にするORビデオ拡散フレームワークを提案する。
また、不妊フィールド違反を検知するためのAIモデルをトレーニングし、検証するために、合成データセットをキュレートする。
- 参考スコア(独自算出の注目度): 8.772884669021659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Curating large-scale datasets of operating room (OR) workflow, encompassing rare, safety-critical, or atypical events, remains operationally and ethically challenging. This data bottleneck complicates the development of ambient intelligence for detecting, understanding, and mitigating rare or safety-critical events in the OR. Methods: This work presents an OR video diffusion framework that enables controlled synthesis of rare and safety-critical events. The framework integrates a geometric abstraction module, a conditioning module, and a fine-tuned diffusion model to first transform OR scenes into abstract geometric representations, then condition the synthesis process, and finally generate realistic OR event videos. Using this framework, we also curate a synthetic dataset to train and validate AI models for detecting near-misses of sterile-field violations. Results: In synthesizing routine OR events, our method outperforms off-the-shelf video diffusion baselines, achieving lower FVD/LPIPS and higher SSIM/PSNR in both in- and out-of-domain datasets. Through qualitative results, we illustrate its ability for controlled video synthesis of counterfactual events. An AI model trained and validated on the generated synthetic data achieved a RECALL of 70.13% in detecting near safety-critical events. Finally, we conduct an ablation study to quantify performance gains from key design choices. Conclusion: Our solution enables controlled synthesis of routine and rare OR events from abstract geometric representations. Beyond demonstrating its capability to generate rare and safety-critical scenarios, we show its potential to support the development of ambient intelligence models.
- Abstract(参考訳): 目的: オペレーティングルーム(OR)ワークフローの大規模なデータセットを計算し、稀で安全クリティカルな、あるいは非定型的なイベントを包含し、運用上かつ倫理的に困難である。
このデータボトルネックは、OR内の稀または安全クリティカルな事象を検出し、理解し、緩和するための環境知能の開発を複雑化する。
方法:本研究は,レアおよびセーフティクリティカル事象の制御合成を可能にするORビデオ拡散フレームワークを提案する。
このフレームワークは、幾何学抽象モジュール、条件付けモジュール、微調整拡散モデルを統合し、まずORシーンを抽象幾何学的表現に変換し、次に合成プロセスを条件化し、最終的にリアルORイベントビデオを生成する。
このフレームワークを使用して、不妊フィールド違反のほぼ検出のためのAIモデルをトレーニングし、検証するために、合成データセットをキュレートする。
結果: ルーチンORイベントの合成において,本手法は市販ビデオ拡散ベースラインより優れ,FVD/LPIPSが低く,SSIM/PSNRが高くなる。
定性的な結果から, 対物事象の映像合成を制御できる能力について述べる。
生成された合成データに基づいてトレーニングされ、検証されたAIモデルは、安全クリティカルな事象の検出において70.13%のRECALLを達成した。
最後に,重要な設計選択からの性能向上を定量化するためのアブレーション研究を行う。
結論:本ソリューションは,抽象幾何学的表現からルーチンおよびレアORイベントの制御された合成を可能にする。
稀で安全に重要なシナリオを生成する能力を示すだけでなく、環境インテリジェンスモデルの開発を支援する可能性を示す。
関連論文リスト
- Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - ControlEvents: Controllable Synthesis of Event Camera Datawith Foundational Prior from Image Diffusion Models [61.17744115607788]
本稿では,多様な制御信号によって誘導される高品質なイベントデータを合成するために,拡散に基づく生成モデルを提案する。
視覚認識, 2次元骨格推定, 3次元身体ポーズ推定のためのイベントデータを合成することで, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-09-26T19:22:07Z) - A Synthetic Dataset for Manometry Recognition in Robotic Applications [0.686108371431346]
手続き的レンダリングとAI駆動のビデオ生成を統合したハイブリッドデータ合成パイプラインを提案する。
YOLOベースの検出器は、合成データセットに基づいて訓練され、実際のデータと合成データを組み合わせた。
論文 参考訳(メタデータ) (2025-08-24T17:52:13Z) - GV-VAD : Exploring Video Generation for Weakly-Supervised Video Anomaly Detection [6.09434007746295]
ビデオ異常検出(VAD)は、インテリジェント監視などの公共安全アプリケーションにおいて重要な役割を果たす。
本稿では, 意味制御可能な, 物理的に可視な合成ビデオを生成するために, 映像強化弱教師付きVADフレームワークを提案する。
提案するフレームワークは,UCF-Crimeデータセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2025-08-01T04:42:40Z) - How Real is CARLAs Dynamic Vision Sensor? A Study on the Sim-to-Real Gap in Traffic Object Detection [0.0]
イベントカメラは、交差点でのリアルタイム物体検出に適している。
堅牢なイベントベース検出モデルの開発は、注釈付き現実世界データセットの可用性の制限によって妨げられている。
本研究では,CARLAs DVSを用いたイベントベース物体検出におけるsim-to-realギャップの定量的解析を行った。
論文 参考訳(メタデータ) (2025-06-16T17:27:43Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - Finding the Trigger: Causal Abductive Reasoning on Video Events [59.188208873301015]
Causal Abductive Reasoning on Video Events (CARVE)は、ビデオ内のイベント間の因果関係を特定する。
本稿では、時間空間と意味空間における映像イベントの関係を調査する因果イベント関係ネットワーク(CERN)を提案する。
論文 参考訳(メタデータ) (2025-01-16T05:39:28Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。