論文の概要: Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks
- arxiv url: http://arxiv.org/abs/2503.12531v1
- Date: Sun, 16 Mar 2025 14:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:58.442258
- Title: Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks
- Title(参考訳): 世界モデルの構築に向けて:ロボット手術作業における予測モデル学習
- Authors: Mehmet Kerem Turkcan, Mattia Ballo, Filippo Filicori, Zoran Kostic,
- Abstract要約: 微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。
我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
- 参考スコア(独自算出の注目度): 0.35087986342428684
- License:
- Abstract: We introduce specialized diffusion-based generative models that capture the spatiotemporal dynamics of fine-grained robotic surgical sub-stitch actions through supervised learning on annotated laparoscopic surgery footage. The proposed models form a foundation for data-driven world models capable of simulating the biomechanical interactions and procedural dynamics of surgical suturing with high temporal fidelity. Annotating a dataset of $\sim2K$ clips extracted from simulation videos, we categorize surgical actions into fine-grained sub-stitch classes including ideal and non-ideal executions of needle positioning, targeting, driving, and withdrawal. We fine-tune two state-of-the-art video diffusion models, LTX-Video and HunyuanVideo, to generate high-fidelity surgical action sequences at $\ge$768x512 resolution and $\ge$49 frames. For training our models, we explore both Low-Rank Adaptation (LoRA) and full-model fine-tuning approaches. Our experimental results demonstrate that these world models can effectively capture the dynamics of suturing, potentially enabling improved training simulators, surgical skill assessment tools, and autonomous surgical systems. The models also display the capability to differentiate between ideal and non-ideal technique execution, providing a foundation for building surgical training and evaluation systems. We release our models for testing and as a foundation for future research. Project Page: https://mkturkcan.github.io/suturingmodels/
- Abstract(参考訳): 本稿では, 内視鏡下手術映像の教師あり学習を通して, 微小なロボット手術の時空間的ダイナミクスを捉えた拡散モデルを提案する。
提案モデルは, 時間的忠実度の高い手術縫合の生体力学的相互作用と手続き力学をシミュレートできるデータ駆動世界モデルの基礎を形成する。
シミュレーションビデオから抽出した$\sim2K$クリップのデータセットをアノテーションとして,針の位置,ターゲット,運転,退行の理想的および非理想的実行を含む細粒度のサブスティッチクラスに分類した。
我々は、最先端のビデオ拡散モデルLTX-VideoとHunyuanVideoの2つを微調整し、高忠実度手術アクションシーケンスを$768x512の解像度と$49のフレームで生成する。
モデルのトレーニングには、LoRA(Lo-Rank Adaptation)とフルモデルの微調整アプローチの両方を探索する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニングシミュレータ, 手術技術評価ツール, 自律型手術システムなどが改良される可能性が示唆された。
モデルはまた、理想と非理想のテクニック実行を区別する能力を示し、外科訓練と評価システムを構築する基盤を提供する。
将来の研究の基盤として、テストのためのモデルをリリースします。
Project Page: https://mkturkcan.github.io/suturingmodels/
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - SimuScope: Realistic Endoscopic Synthetic Dataset Generation through Surgical Simulation and Diffusion Models [1.28795255913358]
そこで本研究では,最新のCASシステムに必要なアノテーションをすべて自動生成する,本格的な手術シミュレータを提案する。
手術器具と変形可能な解剖学的環境の間の力学を含む、より複雑で現実的な外科的相互作用のシミュレーションを提供する。
安定拡散と低ランク適応に基づく軽量でフレキシブルな画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:49:43Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - SimEndoGS: Efficient Data-driven Scene Simulation using Robotic Surgery Videos via Physics-embedded 3D Gaussians [19.590481146949685]
立体内視鏡画像から3D Gaussianを学習可能な手術シーンの表現として紹介する。
本研究では3次元ガウスに物理特性を統合したマテリアルポイント法を適用し,現実的なシーン変形を実現する。
以上の結果から,内視鏡的画像から外科的シーンを効率的に再構成し,シミュレートし,外科的シーンを再構築するのにほんの数分しか要しないことが明らかとなった。
論文 参考訳(メタデータ) (2024-05-02T02:34:19Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。
本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。
本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文 参考訳(メタデータ) (2020-05-12T15:41:45Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。