論文の概要: MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2601.21971v1
- Date: Thu, 29 Jan 2026 16:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.01029
- Title: MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts
- Title(参考訳): MoE-ACT: 改良されたMixture-of-Expertsによる手術模倣学習法の改善
- Authors: Lorenzo Mazza, Ariel Rodriguez, Rayan Younis, Martin Lelis, Ortrun Hellig, Chenpan Li, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel,
- Abstract要約: 位相構造型外科手術作業のための教師付きMixture-of-Expertsアーキテクチャを提案する。
本稿では,150件未満のデモから,軽量なアクションデコーダポリシを用いて,複雑で長期にわたる操作を学習可能であることを示す。
豚のin vivo手術におけるポリシーロールアウトの予備的結果について報告する。
- 参考スコア(独自算出の注目度): 1.6646268910871171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has achieved remarkable success in robotic manipulation, yet its application to surgical robotics remains challenging due to data scarcity, constrained workspaces, and the need for an exceptional level of safety and predictability. We present a supervised Mixture-of-Experts (MoE) architecture designed for phase-structured surgical manipulation tasks, which can be added on top of any autonomous policy. Unlike prior surgical robot learning approaches that rely on multi-camera setups or thousands of demonstrations, we show that a lightweight action decoder policy like Action Chunking Transformer (ACT) can learn complex, long-horizon manipulation from less than 150 demonstrations using solely stereo endoscopic images, when equipped with our architecture. We evaluate our approach on the collaborative surgical task of bowel grasping and retraction, where a robot assistant interprets visual cues from a human surgeon, executes targeted grasping on deformable tissue, and performs sustained retraction. We benchmark our method against state-of-the-art Vision-Language-Action (VLA) models and the standard ACT baseline. Our results show that generalist VLAs fail to acquire the task entirely, even under standard in-distribution conditions. Furthermore, while standard ACT achieves moderate success in-distribution, adopting a supervised MoE architecture significantly boosts its performance, yielding higher success rates in-distribution and demonstrating superior robustness in out-of-distribution scenarios, including novel grasp locations, reduced illumination, and partial occlusions. Notably, it generalizes to unseen testing viewpoints and also transfers zero-shot to ex vivo porcine tissue without additional training, offering a promising pathway toward in vivo deployment. To support this, we present qualitative preliminary results of policy roll-outs during in vivo porcine surgery.
- Abstract(参考訳): 模倣学習はロボット操作において顕著な成功を収めてきたが、データ不足、制約されたワークスペース、および例外的なレベルの安全性と予測可能性の必要性により、外科的ロボット工学への応用は依然として困難である。
本稿では, 位相構造型手術作業用に設計されたMixture-of-Experts (MoE) アーキテクチャについて述べる。
マルチカメラのセットアップや数千のデモに頼った従来の外科用ロボット学習アプローチとは異なり、Action Chunking Transformer(ACT)のような軽量なアクションデコーダポリシーは、私たちのアーキテクチャーを装着すれば、150以上のデモから複雑な、長い水平操作を学習できる。
ロボットアシスタントが人間の外科医から視覚的手がかりを解釈し、変形可能な組織を標的に把握し、持続的な引き抜きを行う、腸の握りと引き抜きの協調的な外科的作業に対するアプローチを評価する。
現状のビジョン・ランゲージ・アクション(VLA)モデルと標準ACTベースラインに対して,本手法をベンチマークする。
この結果から,一般のVLAは,標準分布条件下であっても,完全にはタスクを取得できないことがわかった。
さらに、標準ACTは流通における適度な成功を達成しているが、監督型MoEアーキテクチャを採用すると、その性能が著しく向上し、流通における成功率が向上し、新規な把握位置、照明の低減、部分閉塞を含む流通外シナリオにおいて優れた堅牢性を示す。
特筆すべきは、テストの視点が見えないように一般化し、追加の訓練なしにゼロショットを外生ブタ組織に移植し、生体内展開への有望な経路を提供することである。
これを支援するために,in vivo ブタ手術におけるポリシーロールアウトの質的予備的結果を示す。
関連論文リスト
- StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Visuomotor Grasping with World Models for Surgical Robots [6.228255257808355]
外科的把握のための視覚的学習フレームワークであるGrasp Anything for Surgery V2 (GASv2)を紹介した。
我々は,ドメインランダム化を用いてシミュレーションの方針を訓練し,ファントムと生体外の両方で実ロボットに展開する。
実験の結果,両設定ともに65%の成功率を示し,未確認の物体やグリップに一般化し,多様な乱れに適応することがわかった。
論文 参考訳(メタデータ) (2025-08-15T04:23:07Z) - SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement [8.337819078911405]
SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。
内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。
我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
論文 参考訳(メタデータ) (2025-07-03T03:00:26Z) - EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery [11.286605039002419]
内視鏡手術は、ロボットによる最小侵襲手術のための金の標準である。
従来のディープラーニングモデルは、しばしばクロスアクティビティな干渉に悩まされ、下流の各タスクで最適以下のパフォーマンスをもたらす。
本研究では,内視鏡下手術活動認識とセマンティックセグメンテーションに特化して設計された,新しいマルチタスク学習フレームワークであるEndoARSSを提案する。
論文 参考訳(メタデータ) (2025-06-07T15:18:43Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - ST(OR)2: Spatio-Temporal Object Level Reasoning for Activity Recognition
in the Operating Room [6.132617753806978]
ORにおける外科的活動認識のための新しい試料効率およびオブジェクトベースアプローチを提案する。
本手法は, 臨床医と手術器具の幾何学的配置に着目し, ORにおける重要な物体相互作用のダイナミクスを活用する。
論文 参考訳(メタデータ) (2023-12-19T15:33:57Z) - Demonstration-Guided Reinforcement Learning with Efficient Exploration
for Task Automation of Surgical Robot [54.80144694888735]
効率的な強化学習アルゴリズムであるDEX(Demonstration-Guided Exploration)を導入する。
本手法は,生産的相互作用を促進するために,高い値で専門家のような行動を推定する。
総合的な手術シミュレーションプラットフォームであるSurRoLによる10ドルの手術操作に関する実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-02-20T05:38:54Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。