論文の概要: SurgSora: Object-Aware Diffusion Model for Controllable Surgical Video Generation
- arxiv url: http://arxiv.org/abs/2412.14018v2
- Date: Wed, 18 Jun 2025 04:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.259793
- Title: SurgSora: Object-Aware Diffusion Model for Controllable Surgical Video Generation
- Title(参考訳): SurgSora:制御可能な手術用ビデオ生成のためのオブジェクト認識拡散モデル
- Authors: Tong Chen, Shuya Yang, Junyi Wang, Long Bai, Hongliang Ren, Luping Zhou,
- Abstract要約: SurgSoraは、単一の入力フレームとユーザが指定したモーションキューから、高忠実でモーションコントロール可能な手術用ビデオを生成するフレームワークである。
SurgSoraは、これらのリッチな機能を安定ビデオ拡散に組み込むことで、最先端の視覚的信頼性と制御性を達成する。
- 参考スコア(独自算出の注目度): 25.963369099780113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical video generation can enhance medical education and research, but existing methods lack fine-grained motion control and realism. We introduce SurgSora, a framework that generates high-fidelity, motion-controllable surgical videos from a single input frame and user-specified motion cues. Unlike prior approaches that treat objects indiscriminately or rely on ground-truth segmentation masks, SurgSora leverages self-predicted object features and depth information to refine RGB appearance and optical flow for precise video synthesis. It consists of three key modules: (1) the Dual Semantic Injector, which extracts object-specific RGB-D features and segmentation cues to enhance spatial representations; (2) the Decoupled Flow Mapper, which fuses multi-scale optical flow with semantic features for realistic motion dynamics; and (3) the Trajectory Controller, which estimates sparse optical flow and enables user-guided object movement. By conditioning these enriched features within the Stable Video Diffusion, SurgSora achieves state-of-the-art visual authenticity and controllability in advancing surgical video synthesis, as demonstrated by extensive quantitative and qualitative comparisons. Our human evaluation in collaboration with expert surgeons further demonstrates the high realism of SurgSora-generated videos, highlighting the potential of our method for surgical training and education. Our project is available at https://surgsora.github.io/surgsora.github.io.
- Abstract(参考訳): 手術用ビデオ生成は医学教育と研究を促進するが、既存の方法には細かい運動制御とリアリズムが欠けている。
SurgSoraは、単一の入力フレームとユーザが指定したモーションキューから、高忠実でモーションコントロール可能な手術用ビデオを生成するフレームワークである。
SurgSoraは、物体を無差別に扱うか、あるいは地道なセグメンテーションマスクに頼っている従来のアプローチとは異なり、自己予測された物体の特徴と深度情報を活用して、RGBの外観と光学フローを洗練し、正確なビデオ合成を行う。
1)オブジェクト固有のRGB-D特徴とセグメンテーションキューを抽出して空間表現を強化するDual Semantic Injector,(2)現実的な運動力学のセマンティックな特徴を持つマルチスケール光学フローを融合するDecoupled Flow Mapper,(3)スパース光学フローを推定し,ユーザ誘導物体の動きを可能にするTrajectory Controllerの3つの重要なモジュールから構成される。
安定なビデオ拡散の中でこれらのリッチな特徴を調和させることで、SurgSoraは、広範囲な定量的および質的な比較によって示されるように、手術ビデオ合成の進行における最先端の視覚的正当性と制御性を達成する。
専門医とのコラボレーションによる人的評価は、SurgSoraが生成したビデオの高現実性をさらに証明し、手術訓練と教育のための方法の可能性を強調している。
私たちのプロジェクトはhttps://surgsora.github.io/surgsora.github.ioで公開されています。
関連論文リスト
- SurGrID: Controllable Surgical Simulation via Scene Graph to Image Diffusion [0.8680185045005854]
画像拡散モデルのためのシーングラフであるSurGrIDを導入し,手術シーンの合成を制御可能とした。
シーングラフは手術シーンのコンポーネントの空間的および意味的な情報をエンコードし、中間表現に変換する。
提案手法は、生成した画像の忠実度と、最先端のグラフ入力との整合性を改善する。
論文 参考訳(メタデータ) (2025-02-11T20:49:13Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization [1.0580610673031074]
医用画像の可視化において、CTスキャンのような体積医学データのパストレースは、生命に似た可視化を生成する。
本稿では,CTスキャンの高速かつ静的な中間表現を実現するために,GSを用いた新しい手法を提案する。
本手法は,対象ハードウェアに品質を調整可能な解剖学的構造を保ちながら,インタラクティブなフレームレートを実現する。
論文 参考訳(メタデータ) (2024-10-22T12:56:58Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。