論文の概要: SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis
- arxiv url: http://arxiv.org/abs/2506.03082v1
- Date: Tue, 03 Jun 2025 17:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.877607
- Title: SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis
- Title(参考訳): SG2VID:ビデオ合成のための微粒化制御が可能なシーングラフ
- Authors: Ssharvien Kumar Sivakumar, Yannik Frisch, Ghazal Ghazaei, Anirban Mukhopadhyay,
- Abstract要約: SG2VIDは,Scene Graphsを利用した拡散型ビデオモデルである。
白内障と胆嚢摘出術を併用した3つの公開データセットでSG2VIDの能力を実証した。
- 参考スコア(独自算出の注目度): 1.0808810256442274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical simulation plays a pivotal role in training novice surgeons, accelerating their learning curve and reducing intra-operative errors. However, conventional simulation tools fall short in providing the necessary photorealism and the variability of human anatomy. In response, current methods are shifting towards generative model-based simulators. Yet, these approaches primarily focus on using increasingly complex conditioning for precise synthesis while neglecting the fine-grained human control aspect. To address this gap, we introduce SG2VID, the first diffusion-based video model that leverages Scene Graphs for both precise video synthesis and fine-grained human control. We demonstrate SG2VID's capabilities across three public datasets featuring cataract and cholecystectomy surgery. While SG2VID outperforms previous methods both qualitatively and quantitatively, it also enables precise synthesis, providing accurate control over tool and anatomy's size and movement, entrance of new tools, as well as the overall scene layout. We qualitatively motivate how SG2VID can be used for generative augmentation and present an experiment demonstrating its ability to improve a downstream phase detection task when the training set is extended with our synthetic videos. Finally, to showcase SG2VID's ability to retain human control, we interact with the Scene Graphs to generate new video samples depicting major yet rare intra-operative irregularities.
- Abstract(参考訳): 手術シミュレーションは、初心者外科医の訓練において重要な役割を担い、学習曲線を加速し、術中エラーを減らす。
しかし、従来のシミュレーションツールは、必要なフォトリアリズムと人間の解剖学の多様性を提供するのに不足している。
これに反応して、現在の手法は生成モデルベースのシミュレータへとシフトしている。
しかし、これらのアプローチは主に、きめ細かい人間の制御面を無視しながら、より複雑な条件付けを正確な合成に利用することに焦点を当てている。
このギャップに対処するために、SG2VIDは、Scene Graphsを利用して、精密なビデオ合成ときめ細かい人間の制御を行う最初の拡散型ビデオモデルである。
白内障と胆嚢摘出術を併用した3つの公開データセットでSG2VIDの能力を実証した。
SG2VIDは従来の手法よりも質的にも定量的にも優れているが、正確な合成が可能であり、ツールや解剖学のサイズや動きを正確に制御し、新しいツールの入り口やシーンレイアウト全体を正確に制御できる。
我々は,SG2VIDを生成的拡張に利用する方法を定性的に動機付け,学習セットを合成ビデオで拡張した場合に,下流位相検出タスクを改善する能力を示す実験を行った。
最後に、SG2VIDが人間のコントロールを維持する能力を示すために、Scene Graphsと対話し、主要ながまれな術中異常を示す新しいビデオサンプルを生成する。
関連論文リスト
- Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - Instrument-Splatting: Controllable Photorealistic Reconstruction of Surgical Instruments Using Gaussian Splatting [15.51259636712844]
Real2Simは、外科的人工知能(AI)と自律性の急速な発展により、ますます重要になりつつある。
本稿では3次元ガウススプラッティングを応用した新しいReal2Sim法であるInstrument-Splattingを提案する。
論文 参考訳(メタデータ) (2025-03-06T04:37:09Z) - SurgSora: Decoupled RGBD-Flow Diffusion Model for Controllable Surgical Video Generation [25.963369099780113]
SurgSoraは、単一の入力フレームとユーザ制御可能なモーションキューを使用する、モーションコントロール可能な手術用ビデオ生成フレームワークである。
SurgSoraはDSI(Dual Semantic)という3つの重要なモジュールから構成されており、入力フレームからオブジェクト関連RGBと奥行きの特徴を抽出する。
Decoupled Flow Mapper (DFM)は、時間的理解とオブジェクトのダイナミクスを高めるために、光フローと意味-RGBD機能を複数のスケールで融合する。
Trajectory Controller (TC) は、ユーザが動きの方向を指定し、疎い光の流れを推定し、ビデオ生成プロセスを導く。
論文 参考訳(メタデータ) (2024-12-18T16:34:51Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Expressive Gaussian Human Avatars from Monocular RGB Video [69.56388194249942]
EVAは3DガウスとSMPL-Xに基づいて細部を巧みに彫刻する乾燥可能な人間モデルである。
SMPL-XモデルをRGBフレームに整合させることが,効果的なアバター学習において重要であることを強調した。
本稿では,勾配閾値を適応的に調整する適応密度制御戦略を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:36:27Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。