論文の概要: Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment
- arxiv url: http://arxiv.org/abs/2103.04075v1
- Date: Sat, 6 Mar 2021 09:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:48:55.437862
- Title: Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment
- Title(参考訳): 非監視キネマティック・ビジュアルデータアライメントによるドメイン適応型ロボットジェスチャ認識
- Authors: Xueying Shi, Yueming Jin, Qi Dou, Jing Qin, and Pheng-Ann Heng
- Abstract要約: 本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
- 参考スコア(独自算出の注目度): 60.31418655784291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated surgical gesture recognition is of great importance in
robot-assisted minimally invasive surgery. However, existing methods assume
that training and testing data are from the same domain, which suffers from
severe performance degradation when a domain gap exists, such as the simulator
and real robot. In this paper, we propose a novel unsupervised domain
adaptation framework which can simultaneously transfer multi-modality
knowledge, i.e., both kinematic and visual data, from simulator to real robot.
It remedies the domain gap with enhanced transferable features by using
temporal cues in videos, and inherent correlations in multi-modal towards
recognizing gesture. Specifically, we first propose an MDO-K to align
kinematics, which exploits temporal continuity to transfer motion directions
with smaller gap rather than position values, relieving the adaptation burden.
Moreover, we propose a KV-Relation-ATT to transfer the co-occurrence signals of
kinematics and vision. Such features attended by correlation similarity are
more informative for enhancing domain-invariance of the model. Two feature
alignment strategies benefit the model mutually during the end-to-end learning
process. We extensively evaluate our method for gesture recognition using DESK
dataset with peg transfer procedure. Results show that our approach recovers
the performance with great improvement gains, up to 12.91% in ACC and 20.16% in
F1score without using any annotations in real robot.
- Abstract(参考訳): ロボットによる最小侵襲手術では,自動ジェスチャー認識が重要である。
しかし,既存の手法では,シミュレータや実ロボットのような領域ギャップが存在する場合,トレーニングデータとテストデータが同一の領域から来ていると仮定している。
本論文では,マルチモダリティの知識,すなわちキネマティックデータと視覚データの両方をシミュレータから実ロボットに同時に転送する,新しい非監視領域適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
具体的には, 時間的連続性を利用して位置値よりも少ないギャップで動き方向を移動し, 適応負担を軽減するmdo-kを提案する。
さらに,キネマティクスと視覚の共起信号を伝達するKV-Relation-ATTを提案する。
このような相関類似性は、モデルのドメイン不変性を高めるためにより有益である。
2つの機能アライメント戦略は、エンドツーエンドの学習プロセス中に相互に利益をもたらす。
ペグ転送処理を用いたDESKデータセットを用いたジェスチャー認識の手法を幅広く評価する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
関連論文リスト
- Towards Full-scene Domain Generalization in Multi-agent Collaborative
Bird's Eye View Segmentation for Connected and Autonomous Driving [54.60458503590669]
協調認識の学習段階と推論段階の両方に適用可能な統合ドメイン一般化フレームワークを提案する。
我々は、AmpAug(Amplitude Augmentation)法を用いて、低周波画像の変動を増大させ、学習能力を拡大する。
推論フェーズでは、システム内ドメインアライメント機構を導入し、ドメインの不一致を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - Domain Adaptive Sim-to-Real Segmentation of Oropharyngeal Organs Towards
Robot-assisted Intubation [15.795665057836636]
この作業では、Open Framework Architectureフレームワークによって生成された仮想データセットを導入し、実際の内視鏡画像の可用性の制限を克服する。
また,画像ブレンディング戦略を用いた咽頭臓器画像分割のための領域適応型Sim-to-Real法を提案する。
実験結果は,ドメイン適応モデルを用いた提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-19T14:08:15Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。