論文の概要: SWoMo: Neuro-Symbolic World Model for Cataract Surgery Simulation
- arxiv url: http://arxiv.org/abs/2605.16530v1
- Date: Fri, 15 May 2026 18:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.612953
- Title: SWoMo: Neuro-Symbolic World Model for Cataract Surgery Simulation
- Title(参考訳): SWoMo:白内障手術シミュレーションのためのニューロシンボリック世界モデル
- Authors: Ssharvien Kumar Sivakumar, Akwele Johnson, Anirudh Dhingra, Yannik Frisch, Ghazal Ghazaei, Anirban Mukhopadhyay,
- Abstract要約: 本稿では,視覚リアリズムから運動生成を分離する白内障手術シミュレーションのための,ニューロシンボリック世界モデルSWoMoを紹介する。
そこで本研究では,シミュレータ内のリアルな手術映像を再構成して,ビデオ拡散モデルのトレーニングに使用するペア・シミュレートとリアルなビデオを得るための逆ペアリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.7880846345305875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic surgical simulation plays a crucial role in training novice surgeons and in the development of autonomous agents. World models can scale such simulation environments to realistic and diverse procedures by predicting future patient states conditioned on current observations and surgical actions. However, current state-of-the-art approaches often fail to satisfy key criteria required for clinical applicability, including visual realism, physically grounded interactions, and the ability to simulate scenarios beyond the training distribution. Hence, we introduce SWoMo, a neuro-symbolic world model for cataract surgery simulation that decouples motion generation from visual realism. The symbolic component, consisting of a rule-based simulator and scene graph representations, models motion dynamics and tool-tissue interactions, while a diffusion model produces realistic visual appearance, including textures and tissue deformations. We propose an inverse pairing strategy that reconstructs real surgical videos in the simulator to obtain paired simulated and real videos, which are then used to train our video diffusion model for the reverse objective of sim-to-real translation. Our experiments show both qualitative and quantitative improvements over prior work. We demonstrate that our simulator further satisfies the key criteria, including generalisation to unseen interaction geometries, improvements in downstream phase detection, and unsupervised video style transfer. The code, data, and model weights are available at: https://ssharvienkumar.github.io/SWoMo/
- Abstract(参考訳): リアルな外科シミュレーションは、初心者外科医の訓練や自律的なエージェントの開発において重要な役割を担っている。
世界モデルは、こうしたシミュレーション環境を、現在の観察と外科的行動に基づいて、将来の患者の状態を予測することによって、現実的で多様な手順にスケールすることができる。
しかし、現在の最先端のアプローチは、視覚的リアリズム、物理的に接地された相互作用、トレーニング分布を超えてシナリオをシミュレートする能力など、臨床応用に必要とされる重要な基準を満たすことができないことが多い。
そこで我々は,視覚リアリズムから運動生成を分離する白内障手術シミュレーションのための,ニューロシンボリック世界モデルSWoMoを紹介する。
シンボリックコンポーネントは、ルールベースのシミュレータとシーングラフ表現、モデルモーションダイナミクスとツール-タスク相互作用で構成され、拡散モデルはテクスチャや組織変形を含む現実的な視覚的外観を生成する。
本研究では,シミュレータ内のリアルな手術映像を再構成して,シミュレーションと実動画のペア化を行う逆ペアリング手法を提案する。
実験の結果, 従来よりも質的, 定量的な改善が見られた。
また,本シミュレータは,非干渉測地への一般化,下流位相検出の改善,教師なし映像スタイルの転送など,重要な基準を満たすことを実証した。
コード、データ、およびモデルの重み付けは、https://ssharvienkumar.github.io/SWoMo/で利用可能である。
関連論文リスト
- SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation [13.94653131033701]
リアルな外科的アクションビデオを生成することができる外科的世界モデルは、外科的AIとシミュレーションの根本的な課題に対処することができる。
現在のビデオ生成法は、推論時の条件付け信号として高価なアノテーションや複雑な構造化中間体を必要とする。
手術行動世界(SAW)は,4つの軽量信号を用いた映像拡散条件による手術行動モデリングに向けてのステップである。
論文 参考訳(メタデータ) (2026-03-13T14:32:41Z) - DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer [62.18680935878919]
レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。
コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
論文 参考訳(メタデータ) (2026-02-27T15:35:30Z) - Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks [0.35087986342428684]
微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。
我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
論文 参考訳(メタデータ) (2025-03-16T14:51:12Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Realistic Surgical Simulation from Monocular Videos [49.114370617718244]
本稿では,手軽な手術映像からリアルな手術シミュレーションを自動実行することの課題に対処する。
本稿では,これらの制約を克服する新しい自動シミュレーションシステムであるSurgiSimを提案する。
様々な手術シナリオと相互作用の実験は、SurgiSimが軟組織の現実的なシミュレーションを行う能力を示している。
論文 参考訳(メタデータ) (2024-12-03T10:32:41Z) - SimuScope: Realistic Endoscopic Synthetic Dataset Generation through Surgical Simulation and Diffusion Models [1.28795255913358]
そこで本研究では,最新のCASシステムに必要なアノテーションをすべて自動生成する,本格的な手術シミュレータを提案する。
手術器具と変形可能な解剖学的環境の間の力学を含む、より複雑で現実的な外科的相互作用のシミュレーションを提供する。
安定拡散と低ランク適応に基づく軽量でフレキシブルな画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:49:43Z) - SimEndoGS: Efficient Data-driven Scene Simulation using Robotic Surgery Videos via Physics-embedded 3D Gaussians [19.590481146949685]
立体内視鏡画像から3D Gaussianを学習可能な手術シーンの表現として紹介する。
本研究では3次元ガウスに物理特性を統合したマテリアルポイント法を適用し,現実的なシーン変形を実現する。
以上の結果から,内視鏡的画像から外科的シーンを効率的に再構成し,シミュレートし,外科的シーンを再構築するのにほんの数分しか要しないことが明らかとなった。
論文 参考訳(メタデータ) (2024-05-02T02:34:19Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。