論文の概要: SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling
- arxiv url: http://arxiv.org/abs/2512.23162v3
- Date: Mon, 05 Jan 2026 04:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.654219
- Title: SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling
- Title(参考訳): SurgWorld: ビデオから世界モデリングによる手術ロボットポリシーの学習
- Authors: Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu,
- Abstract要約: SurgWorldは外科用物理AI用に設計された世界モデルである。
SurgeWorldは多様な、一般化可能な、リアルな手術ビデオを生成する。
合成外科的ビデオから擬似キネマティクスを推測するために逆動力学モデルを用いた最初の例である。
- 参考スコア(独自算出の注目度): 19.99022199561975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity remains a fundamental barrier to achieving fully autonomous surgical robots. While large scale vision language action (VLA) models have shown impressive generalization in household and industrial manipulation by leveraging paired video action data from diverse domains, surgical robotics suffers from the paucity of datasets that include both visual observations and accurate robot kinematics. In contrast, vast corpora of surgical videos exist, but they lack corresponding action labels, preventing direct application of imitation learning or VLA training. In this work, we aim to alleviate this problem by learning policy models from SurgWorld, a world model designed for surgical physical AI. We curated the Surgical Action Text Alignment (SATA) dataset with detailed action description specifically for surgical robots. Then we built SurgeWorld based on the most advanced physical AI world model and SATA. It's able to generate diverse, generalizable and realistic surgery videos. We are also the first to use an inverse dynamics model to infer pseudokinematics from synthetic surgical videos, producing synthetic paired video action data. We demonstrate that a surgical VLA policy trained with these augmented data significantly outperforms models trained only on real demonstrations on a real surgical robot platform. Our approach offers a scalable path toward autonomous surgical skill acquisition by leveraging the abundance of unlabeled surgical video and generative world modeling, thus opening the door to generalizable and data efficient surgical robot policies.
- Abstract(参考訳): データ不足は、完全に自律的な手術ロボットを実現するための基本的な障壁である。
大規模な視覚言語行動(VLA)モデルでは、さまざまなドメインからペア化されたビデオアクションデータを活用することで、家庭や産業の操作において顕著な一般化が見られたが、外科ロボティクスは、視覚的観察と正確なロボット運動学の両方を含むデータセットの質に悩まされている。
対照的に、多数の手術ビデオコーパスが存在するが、対応するアクションラベルが欠如しており、模倣学習やVLAトレーニングの直接的な適用を妨げている。
本研究では,外科的物理AIのための世界モデルであるSurgWorldからポリシーモデルを学習することで,この問題を軽減することを目的とする。
外科用ロボットのための詳細な動作記述を用いた手術行動テキストアライメント(SATA)データセットをキュレートした。
そして、最も高度な物理AIワールドモデルとSATAに基づいてSurgeWorldを構築しました。
多様な、一般化可能な、リアルな手術ビデオを生成することができます。
また、逆ダイナミクスモデルを用いて、合成手術ビデオから擬似キネマティクスを推論し、合成ペアビデオアクションデータを生成する。
これらの拡張データを用いて訓練された外科的VLAポリシーは、実際の外科的ロボットプラットフォーム上での実際のデモンストレーションでのみ訓練されたモデルよりも有意に優れていた。
提案手法は,未ラベルの手術ビデオと生成ワールドモデリングの豊富な活用により,自律的な手術スキル獲得に向けたスケーラブルな道筋を提供する。
関連論文リスト
- Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Surgical Vision World Model [7.201703457427001]
動作制御可能な手術データを生成する最初の手術視覚世界モデルを提案する。
提案モデルでは, 動作制御可能な手術データを生成し, アーキテクチャ設計の検証を行う。
論文 参考訳(メタデータ) (2025-03-03T10:55:52Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - A real-time spatiotemporal AI model analyzes skill in open surgical
videos [2.4907439112059278]
これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。
我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
論文 参考訳(メタデータ) (2021-12-14T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。