Fugu-MT 論文翻訳(概要): Future Frame Prediction for Robot-assisted Surgery

論文の概要: Future Frame Prediction for Robot-assisted Surgery

arxiv url: http://arxiv.org/abs/2103.10308v1
Date: Thu, 18 Mar 2021 15:12:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-19 13:58:43.791723
Title: Future Frame Prediction for Robot-assisted Surgery
Title（参考訳）: ロボット支援手術におけるフレーム予測
Authors: Xiaojie Gao, Yueming Jin, Zixu Zhao, Qi Dou, Pheng-Ann Heng
Abstract要約: 本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
参考スコア（独自算出の注目度）: 57.18185972461453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting future frames for robotic surgical video is an interesting, important yet extremely challenging problem, given that the operative tasks may have complex dynamics. Existing approaches on future prediction of natural videos were based on either deterministic models or stochastic models, including deep recurrent neural networks, optical flow, and latent space modeling. However, the potential in predicting meaningful movements of robots with dual arms in surgical scenarios has not been tapped so far, which is typically more challenging than forecasting independent motions of one arm robots in natural scenarios. In this paper, we propose a ternary prior guided variational autoencoder (TPG-VAE) model for future frame prediction in robotic surgical video sequences. Besides content distribution, our model learns motion distribution, which is novel to handle the small movements of surgical tools. Furthermore, we add the invariant prior information from the gesture class into the generation process to constrain the latent space of our model. To our best knowledge, this is the first time that the future frames of dual arm robots are predicted considering their unique characteristics relative to general robotic videos. Experiments demonstrate that our model gains more stable and realistic future frame prediction scenes with the suturing task on the public JIGSAWS dataset.
Abstract（参考訳）: ロボット手術ビデオの将来のフレームを予測することは興味深いが、操作タスクが複雑なダイナミクスを持つ可能性があることを考えると、非常に難しい問題である。ナチュラルビデオの将来予測に関する既存のアプローチは、決定論的モデルまたは確率的モデルに基づいており、例えば、深いリカレントニューラルネットワーク、光フロー、潜時空間モデリングである。しかし、手術シナリオで両腕を持つロボットの有意義な動きを予測する可能性は、これまでは予測されておらず、自然シナリオで片方の腕ロボットの独立動作を予測するよりも難しい。本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のための3次先行誘導変分オートエンコーダ(TPG-VAE)モデルを提案する。内容分布の他に,手術用具の小さな動きを扱うのに斬新な運動分布を学習する。さらに,ジェスチャクラスからの不変事前情報を生成プロセスに追加し,モデルの潜在空間を制約する。我々の知る限り、デュアルアームロボットの将来的なフレームは、一般的なロボットビデオと比較して、その特徴を考慮して予測されるのは、これが初めてである。公的なJIGSAWSデータセットの縫合タスクにより,我々のモデルがより安定的で現実的な将来のフレーム予測シーンを得ることを示す。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文参考訳（メタデータ） (2024-02-22T09:48:47Z)
Action-conditioned Deep Visual Prediction with RoAM, a new Indoor Human Motion Dataset for Autonomous Robots [1.7778609937758327]
ロボット自律運動(RoAM)ビデオデータセットについて紹介する。このロボットは、ロボットのエゴビジョンから様々な人間の動きを記録する様々な屋内環境において、カスタムメイドのタートルボット3バーガーロボットで収集される。データセットには、LiDARスキャンの同期記録や、静的で動く人間のエージェントの周りを移動する際にロボットが取るすべての制御アクションも含まれている。
論文参考訳（メタデータ） (2023-06-28T00:58:44Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
SPOTR: Spatio-temporal Pose Transformers for Human Motion Prediction [12.248428883804763]
3次元人間の動き予測は、コンピュータビジョンにおける高い重要性と課題を計算した研究領域である。伝統的に、自己回帰モデルは人間の動きを予測するために用いられてきた。人間の動作予測のための非自己回帰モデルを提案する。
論文参考訳（メタデータ） (2023-03-11T01:44:29Z)
STPOTR: Simultaneous Human Trajectory and Pose Prediction Using a Non-Autoregressive Transformer for Robot Following Ahead [8.227864212055035]
観測された人間の動作履歴から将来の人間の動作を予測するニューラルネットワークモデルを開発した。本研究では,自動回帰トランスフォーマアーキテクチャを提案し,その並列特性を利用して,テスト時の高速かつ高精度な予測を行う。我々のモデルは、最先端の手法に関して、テスト精度と速度の観点からロボット応用に適している。
論文参考訳（メタデータ） (2022-09-15T20:27:54Z)
Full-Body Visual Self-Modeling of Robot Morphologies [29.76701883250049]
身体の内部計算モデルは、ロボットや動物が行動の計画と制御を行う能力の基礎である。完全データ駆動型自己モデリングの最近の進歩により、マシンはタスク非依存の相互作用データから直接フォワードキネマティクスを学習できるようになった。ここでは、フォワードキネマティクスを直接モデル化するのではなく、空間占有クエリに答えることのできる、より有用な自己モデリング形式を提案する。
論文参考訳（メタデータ） (2021-11-11T18:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。