論文の概要: SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation
- arxiv url: http://arxiv.org/abs/2603.13024v1
- Date: Fri, 13 Mar 2026 14:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.120086
- Title: SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation
- Title(参考訳): SAW:制御可能でスケーラブルなビデオ生成による手術行動世界モデルに向けて
- Authors: Sampath Rapuri, Lalithkumar Seenivasan, Dominik Schneider, Roger Soberanis-Mukul, Yufan He, Hao Ding, Jiru Xu, Chenhao Yu, Chenyan Jing, Pengfei Guo, Daguang Xu, Mathias Unberath,
- Abstract要約: リアルな外科的アクションビデオを生成することができる外科的世界モデルは、外科的AIとシミュレーションの根本的な課題に対処することができる。
現在のビデオ生成法は、推論時の条件付け信号として高価なアノテーションや複雑な構造化中間体を必要とする。
手術行動世界(SAW)は,4つの軽量信号を用いた映像拡散条件による手術行動モデリングに向けてのステップである。
- 参考スコア(独自算出の注目度): 13.94653131033701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A surgical world model capable of generating realistic surgical action videos with precise control over tool-tissue interactions can address fundamental challenges in surgical AI and simulation -- from data scarcity and rare event synthesis to bridging the sim-to-real gap for surgical automation. However, current video generation methods, the very core of such surgical world models, require expensive annotations or complex structured intermediates as conditioning signals at inference, limiting their scalability. Other approaches exhibit limited temporal consistency across complex laparoscopic scenes and do not possess sufficient realism. We propose Surgical Action World (SAW) -- a step toward surgical action world modeling through video diffusion conditioned on four lightweight signals: language prompts encoding tool-action context, a reference surgical scene, tissue affordance mask, and 2D tool-tip trajectories. We design a conditional video diffusion approach that reformulates video-to-video diffusion into trajectory-conditioned surgical action synthesis. The backbone diffusion model is fine-tuned on a custom-curated dataset of 12,044 laparoscopic clips with lightweight spatiotemporal conditioning signals, leveraging a depth consistency loss to enforce geometric plausibility without requiring depth at inference. SAW achieves state-of-the-art temporal consistency (CD-FVD: 199.19 vs. 546.82) and strong visual quality on held-out test data. Furthermore, we demonstrate its downstream utility for (a) surgical AI, where augmenting rare actions with SAW-generated videos improves action recognition (clipping F1-score: 20.93% to 43.14%; cutting: 0.00% to 8.33%) on real test data, and (b) surgical simulation, where rendering tool-tissue interaction videos from simulator-derived trajectory points toward a visually faithful simulation engine.
- Abstract(参考訳): ツールとタスクのインタラクションを正確に制御したリアルな外科的アクションビデオを生成することができる外科的世界モデルは、データ不足やまれなイベント合成から、外科的自動化のためのシミュレートと現実のギャップを埋めることに至るまで、外科的AIとシミュレーションの基本的な課題に対処することができる。
しかし、そのような外科的世界モデルの中核である現在のビデオ生成手法は、推論時の条件付け信号として高価なアノテーションや複雑な構造化中間体を必要とし、スケーラビリティを制限している。
他のアプローチでは、複雑な腹腔鏡のシーンで時間的一貫性が限られており、十分なリアリズムを持っていない。
手術行動世界(SAW) - ツールアクションコンテキストを符号化する言語プロンプト、参照外科シーン、組織余裕マスク、および2Dツールチップトラジェクトリーの4つの軽量信号を用いたビデオ拡散条件による手術行動世界モデリングに向けたステップを提案する。
我々は,映像間拡散を軌跡条件付き外科的動作合成に変換する条件付きビデオ拡散アプローチを設計する。
バックボーン拡散モデルは,12,044本の腹腔鏡的クリップを軽量な時空間条件信号でカスタマイズしたデータセットで微調整し,深度整合性損失を利用して推定の深度を必要とせずに幾何的可視性を強制する。
SAWは、最先端の時間一貫性(CD-FVD: 199.19 vs. 546.82)と、保持されたテストデータに対する強力な視覚的品質を達成する。
さらに、下流のユーティリティを実演する。
(a)SAW生成ビデオによるまれな行動の増大は、実際のテストデータ上での行動認識(F1スコア:20.93%から43.14%、カット:0.00%から8.33%)を改善し、
b) 手術シミュレーションでは, シミュレータ由来の軌跡から視覚的に忠実なシミュレーションエンジンへ向けて, ツール間相互作用ビデオのレンダリングを行う。
関連論文リスト
- SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks [0.35087986342428684]
微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。
我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
論文 参考訳(メタデータ) (2025-03-16T14:51:12Z) - Realistic Surgical Simulation from Monocular Videos [49.114370617718244]
本稿では,手軽な手術映像からリアルな手術シミュレーションを自動実行することの課題に対処する。
本稿では,これらの制約を克服する新しい自動シミュレーションシステムであるSurgiSimを提案する。
様々な手術シナリオと相互作用の実験は、SurgiSimが軟組織の現実的なシミュレーションを行う能力を示している。
論文 参考訳(メタデータ) (2024-12-03T10:32:41Z) - SimuScope: Realistic Endoscopic Synthetic Dataset Generation through Surgical Simulation and Diffusion Models [1.28795255913358]
そこで本研究では,最新のCASシステムに必要なアノテーションをすべて自動生成する,本格的な手術シミュレータを提案する。
手術器具と変形可能な解剖学的環境の間の力学を含む、より複雑で現実的な外科的相互作用のシミュレーションを提供する。
安定拡散と低ランク適応に基づく軽量でフレキシブルな画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:49:43Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。