論文の概要: Surgical Vision World Model
- arxiv url: http://arxiv.org/abs/2503.02904v1
- Date: Mon, 03 Mar 2025 10:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:56.702550
- Title: Surgical Vision World Model
- Title(参考訳): 手術ビジョン世界モデル
- Authors: Saurabh Koju, Saurav Bastola, Prashant Shrestha, Sanskar Amgain, Yash Raj Shrestha, Rudra P. K. Poudel, Binod Bhattarai,
- Abstract要約: 動作制御可能な手術データを生成する最初の手術視覚世界モデルを提案する。
提案モデルでは, 動作制御可能な手術データを生成し, アーキテクチャ設計の検証を行う。
- 参考スコア(独自算出の注目度): 7.227638707410672
- License:
- Abstract: Realistic and interactive surgical simulation has the potential to facilitate crucial applications, such as medical professional training and autonomous surgical agent training. In the natural visual domain, world models have enabled action-controlled data generation, demonstrating the potential to train autonomous agents in interactive simulated environments when large-scale real data acquisition is infeasible. However, such works in the surgical domain have been limited to simplified computer simulations, and lack realism. Furthermore, existing literature in world models has predominantly dealt with action-labeled data, limiting their applicability to real-world surgical data, where obtaining action annotation is prohibitively expensive. Inspired by the recent success of Genie in leveraging unlabeled video game data to infer latent actions and enable action-controlled data generation, we propose the first surgical vision world model. The proposed model can generate action-controllable surgical data and the architecture design is verified with extensive experiments on the unlabeled SurgToolLoc-2022 dataset. Codes and implementation details are available at https://github.com/bhattarailab/Surgical-Vision-World-Model
- Abstract(参考訳): リアルでインタラクティブな手術シミュレーションは、医療専門家のトレーニングや自律的な手術エージェントのトレーニングなど、重要な応用を促進する可能性がある。
自然視覚領域において、世界モデルは行動制御データ生成を可能にし、大規模な実データ取得が不可能な場合、インタラクティブなシミュレーション環境で自律エージェントを訓練する可能性を実証した。
しかし、外科領域におけるそのような研究は、単純化されたコンピュータシミュレーションに限られており、リアリズムが欠如している。
さらに、既存の世界モデルにおける文献は、アクションラベル付きデータに主に対応しており、実際の手術データに適用可能であり、アクションアノテーションの取得は違法に高価である。
Genieの最近の成功に触発されて、未ラベルのビデオゲームデータを利用して、潜在アクションを推論し、アクション制御されたデータ生成が可能になった。
提案モデルでは,動作制御可能な手術データを生成することができ,未ラベルSurgToolLoc-2022データセットに対する広範な実験によりアーキテクチャ設計が検証される。
コードと実装の詳細はhttps://github.com/bhattarailab/Surgical-Vision-World-Modelで確認できる。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - SimuScope: Realistic Endoscopic Synthetic Dataset Generation through Surgical Simulation and Diffusion Models [1.28795255913358]
そこで本研究では,最新のCASシステムに必要なアノテーションをすべて自動生成する,本格的な手術シミュレータを提案する。
手術器具と変形可能な解剖学的環境の間の力学を含む、より複雑で現実的な外科的相互作用のシミュレーションを提供する。
安定拡散と低ランク適応に基づく軽量でフレキシブルな画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:49:43Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting [3.5351922399745166]
本研究は, 合成外科用データセットを生成するために3次元ガウススプラッティングを用いた新しい手法を提案する。
手術現場でツールやカメラのポーズとともに画像を取得することのできるデータ記録システムを開発した。
このポーズデータを用いて、シーンを合成的に再現し、合成画像の品質を直接比較できるようにする。
論文 参考訳(メタデータ) (2024-07-20T11:20:07Z) - Realistic Data Generation for 6D Pose Estimation of Surgical Instruments [4.226502078427161]
手術器具の6次元ポーズ推定は,手術操作の自動実行を可能にするために重要である。
家庭や工業環境では、3Dコンピュータグラフィックスソフトウェアで生成された合成データが、アノテーションコストを最小限に抑える代替手段として示されている。
本稿では,大規模・多様なデータセットの自動生成を可能にする外科ロボティクスのシミュレーション環境の改善を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:29Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Intuitive Surgical SurgToolLoc Challenge Results: 2022-2023 [55.40111320730479]
我々は、先進的なRA応用の文脈において、難しい機械学習問題を解決するために、外科データ科学のコミュニティに挑戦してきた。
ここでは,手術ツールの局所化(SurgToolLoc)を中心に,これらの課題の成果を報告する。
これらの課題に対応する公開データセットは、別の論文arXiv:2501.09209で詳述されている。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Surgical Visual Domain Adaptation: Results from the MICCAI 2020
SurgVisDom Challenge [9.986124942784969]
この研究は、データプライバシの懸念を克服するために、手術における視覚領域適応の可能性を探究する。
特に,外科手術のバーチャルリアリティ(VR)シミュレーションのビデオを用いて,臨床ライクな環境下でのタスク認識アルゴリズムの開発を提案する。
課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。
論文 参考訳(メタデータ) (2021-02-26T18:45:28Z) - Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。
本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。
本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文 参考訳(メタデータ) (2020-05-12T15:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。