論文の概要: SurgSora: Decoupled RGBD-Flow Diffusion Model for Controllable Surgical Video Generation
- arxiv url: http://arxiv.org/abs/2412.14018v1
- Date: Wed, 18 Dec 2024 16:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:39.304198
- Title: SurgSora: Decoupled RGBD-Flow Diffusion Model for Controllable Surgical Video Generation
- Title(参考訳): SurgSora:制御可能な手術ビデオ生成のための分離RGBDフロー拡散モデル
- Authors: Tong Chen, Shuya Yang, Junyi Wang, Long Bai, Hongliang Ren, Luping Zhou,
- Abstract要約: SurgSoraは、単一の入力フレームとユーザ制御可能なモーションキューを使用する、モーションコントロール可能な手術用ビデオ生成フレームワークである。
SurgSoraはDSI(Dual Semantic)という3つの重要なモジュールから構成されており、入力フレームからオブジェクト関連RGBと奥行きの特徴を抽出する。
Decoupled Flow Mapper (DFM)は、時間的理解とオブジェクトのダイナミクスを高めるために、光フローと意味-RGBD機能を複数のスケールで融合する。
Trajectory Controller (TC) は、ユーザが動きの方向を指定し、疎い光の流れを推定し、ビデオ生成プロセスを導く。
- 参考スコア(独自算出の注目度): 25.963369099780113
- License:
- Abstract: Medical video generation has transformative potential for enhancing surgical understanding and pathology insights through precise and controllable visual representations. However, current models face limitations in controllability and authenticity. To bridge this gap, we propose SurgSora, a motion-controllable surgical video generation framework that uses a single input frame and user-controllable motion cues. SurgSora consists of three key modules: the Dual Semantic Injector (DSI), which extracts object-relevant RGB and depth features from the input frame and integrates them with segmentation cues to capture detailed spatial features of complex anatomical structures; the Decoupled Flow Mapper (DFM), which fuses optical flow with semantic-RGB-D features at multiple scales to enhance temporal understanding and object spatial dynamics; and the Trajectory Controller (TC), which allows users to specify motion directions and estimates sparse optical flow, guiding the video generation process. The fused features are used as conditions for a frozen Stable Diffusion model to produce realistic, temporally coherent surgical videos. Extensive evaluations demonstrate that SurgSora outperforms state-of-the-art methods in controllability and authenticity, showing its potential to advance surgical video generation for medical education, training, and research.
- Abstract(参考訳): 医用ビデオ生成は、精密かつ制御可能な視覚的表現を通じて、外科的理解と病理的洞察を増強するトランスフォーメーション能力を有する。
しかし、現在のモデルは制御性と認証の限界に直面している。
このギャップを埋めるために,単一入力フレームとユーザ制御可能なモーションキューを用いたモーションコントロール可能な手術用ビデオ生成フレームワークであるSurgSoraを提案する。
SurgSoraは3つの重要なモジュールで構成されている。Dual Semantic Injector (DSI)は、入力フレームからオブジェクト関連RGBと深さの特徴を抽出し、複雑な解剖学的構造の詳細な空間的特徴を捉えるためのセグメンテーションキューと統合する。
融合した特徴は、凍結した安定拡散モデルの条件として使われ、リアルで時間的に整合した手術ビデオを生成する。
広範囲な評価は、SurgSoraが制御性と認証の最先端の手法よりも優れており、医学教育、トレーニング、研究のための手術用ビデオ生成を前進させる可能性を示していることを示している。
関連論文リスト
- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.432082883533906]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。
3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。
テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (2024-11-03T17:57:00Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization [1.0580610673031074]
医用画像の可視化において、CTスキャンのような体積医学データのパストレースは、生命に似た可視化を生成する。
本稿では,CTスキャンの高速かつ静的な中間表現を実現するために,GSを用いた新しい手法を提案する。
本手法は,対象ハードウェアに品質を調整可能な解剖学的構造を保ちながら,インタラクティブなフレームレートを実現する。
論文 参考訳(メタデータ) (2024-10-22T12:56:58Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。