論文の概要: Future Frame Prediction for Robot-assisted Surgery
- arxiv url: http://arxiv.org/abs/2103.10308v1
- Date: Thu, 18 Mar 2021 15:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:58:43.791723
- Title: Future Frame Prediction for Robot-assisted Surgery
- Title(参考訳): ロボット支援手術におけるフレーム予測
- Authors: Xiaojie Gao, Yueming Jin, Zixu Zhao, Qi Dou, Pheng-Ann Heng
- Abstract要約: 本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
- 参考スコア(独自算出の注目度): 57.18185972461453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting future frames for robotic surgical video is an interesting,
important yet extremely challenging problem, given that the operative tasks may
have complex dynamics. Existing approaches on future prediction of natural
videos were based on either deterministic models or stochastic models,
including deep recurrent neural networks, optical flow, and latent space
modeling. However, the potential in predicting meaningful movements of robots
with dual arms in surgical scenarios has not been tapped so far, which is
typically more challenging than forecasting independent motions of one arm
robots in natural scenarios. In this paper, we propose a ternary prior guided
variational autoencoder (TPG-VAE) model for future frame prediction in robotic
surgical video sequences. Besides content distribution, our model learns motion
distribution, which is novel to handle the small movements of surgical tools.
Furthermore, we add the invariant prior information from the gesture class into
the generation process to constrain the latent space of our model. To our best
knowledge, this is the first time that the future frames of dual arm robots are
predicted considering their unique characteristics relative to general robotic
videos. Experiments demonstrate that our model gains more stable and realistic
future frame prediction scenes with the suturing task on the public JIGSAWS
dataset.
- Abstract(参考訳): ロボット手術ビデオの将来のフレームを予測することは興味深いが、操作タスクが複雑なダイナミクスを持つ可能性があることを考えると、非常に難しい問題である。
ナチュラルビデオの将来予測に関する既存のアプローチは、決定論的モデルまたは確率的モデルに基づいており、例えば、深いリカレントニューラルネットワーク、光フロー、潜時空間モデリングである。
しかし、手術シナリオで両腕を持つロボットの有意義な動きを予測する可能性は、これまでは予測されておらず、自然シナリオで片方の腕ロボットの独立動作を予測するよりも難しい。
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のための3次先行誘導変分オートエンコーダ(TPG-VAE)モデルを提案する。
内容分布の他に,手術用具の小さな動きを扱うのに斬新な運動分布を学習する。
さらに,ジェスチャクラスからの不変事前情報を生成プロセスに追加し,モデルの潜在空間を制約する。
我々の知る限り、デュアルアームロボットの将来的なフレームは、一般的なロボットビデオと比較して、その特徴を考慮して予測されるのは、これが初めてである。
公的なJIGSAWSデータセットの縫合タスクにより,我々のモデルがより安定的で現実的な将来のフレーム予測シーンを得ることを示す。
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Large-Scale Actionless Video Pre-Training via Discrete Diffusion for
Efficient Policy Learning [73.69573252516761]
本稿では,人間のビデオにおける生成前訓練とアクションラベル付きロボットビデオのポリシー微調整を組み合わせた新しいフレームワークを提案する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Action-conditioned Deep Visual Prediction with RoAM, a new Indoor Human
Motion Dataset for Autonomous Robots [1.7778609937758327]
ロボット自律運動(RoAM)ビデオデータセットについて紹介する。
このロボットは、ロボットのエゴビジョンから様々な人間の動きを記録する様々な屋内環境において、カスタムメイドのタートルボット3バーガーロボットで収集される。
データセットには、LiDARスキャンの同期記録や、静的で動く人間のエージェントの周りを移動する際にロボットが取るすべての制御アクションも含まれている。
論文 参考訳(メタデータ) (2023-06-28T00:58:44Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。
伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。
人間の動作予測のための非自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T01:44:29Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a
Non-Autoregressive Transformer for Robot Following Ahead [8.227864212055035]
観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。
本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。
我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
論文 参考訳(メタデータ) (2022-09-15T20:27:54Z) - Full-Body Visual Self-Modeling of Robot Morphologies [29.76701883250049]
身体の内部計算モデルは、ロボットや動物が行動の計画と制御を行う能力の基礎である。
完全データ駆動型自己モデリングの最近の進歩により、マシンはタスク非依存の相互作用データから直接フォワードキネマティクスを学習できるようになった。
ここでは、フォワードキネマティクスを直接モデル化するのではなく、空間占有クエリに答えることのできる、より有用な自己モデリング形式を提案する。
論文 参考訳(メタデータ) (2021-11-11T18:58:07Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。