論文の概要: Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants
- arxiv url: http://arxiv.org/abs/2503.15647v1
- Date: Wed, 19 Mar 2025 19:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:22.368062
- Title: Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants
- Title(参考訳): 運動不変量によるビデオおよび手術用ツールポーズ情報からのマルチモーダルジェスチャ認識
- Authors: Jumanh Atoum, Garrison L. H. Johnston, Nabil Simaan, Jie Ying Wu,
- Abstract要約: 外科的ジェスチャーをリアルタイムで認識することは、自動化された活動認識、スキルアセスメント、術中援助、そして最終的には外科的自動化への一歩である。
マルチモーダルニューラルネットワークにおける最近の研究では、視覚とキネマティクスのデータの関係が学習されているが、現在のアプローチでは、キネマティクス情報を独立した信号として扱うことができ、ツールチップのポーズには基礎的な関係はない。
JIGSAWSサチューリングデータセットにおいて、不変信号とツール位置を組み合わせることにより、ジェスチャー認識が90.3%の精度で向上することを示す。
- 参考スコア(独自算出の注目度): 9.77463802740227
- License:
- Abstract: Recognizing surgical gestures in real-time is a stepping stone towards automated activity recognition, skill assessment, intra-operative assistance, and eventually surgical automation. The current robotic surgical systems provide us with rich multi-modal data such as video and kinematics. While some recent works in multi-modal neural networks learn the relationships between vision and kinematics data, current approaches treat kinematics information as independent signals, with no underlying relation between tool-tip poses. However, instrument poses are geometrically related, and the underlying geometry can aid neural networks in learning gesture representation. Therefore, we propose combining motion invariant measures (curvature and torsion) with vision and kinematics data using a relational graph network to capture the underlying relations between different data streams. We show that gesture recognition improves when combining invariant signals with tool position, achieving 90.3\% frame-wise accuracy on the JIGSAWS suturing dataset. Our results show that motion invariant signals coupled with position are better representations of gesture motion compared to traditional position and quaternion representations. Our results highlight the need for geometric-aware modeling of kinematics for gesture recognition.
- Abstract(参考訳): 外科的ジェスチャーをリアルタイムで認識することは、自動化された活動認識、スキルアセスメント、術中援助、そして最終的には外科的自動化への一歩である。
現在のロボット手術システムは、ビデオやキネマティックスのようなリッチなマルチモーダルデータを提供する。
マルチモーダルニューラルネットワークにおける最近の研究では、視覚とキネマティクスのデータの関係が学習されているが、現在のアプローチでは、キネマティクス情報を独立した信号として扱うことができ、ツールチップのポーズには基礎的な関係はない。
しかしながら、楽器のポーズは幾何学的に関連しており、基礎となる幾何学は、ジェスチャー表現の学習においてニューラルネットワークを支援することができる。
そこで我々は,動き不変測度(曲率とねじれ)と視覚・運動学データを組み合わせた関係グラフネットワークを提案する。
JIGSAWS縫合データセットにおいて,非変分信号とツール位置を組み合わせ,90.3\%のフレームワイズ精度を実現することにより,ジェスチャー認識が向上することを示す。
その結果,動作不変信号と位置の結合は,従来の位置や四元数よりもジェスチャー動作の表現が優れていることがわかった。
本研究は,ジェスチャー認識のためのキネマティクスの幾何学的モデリングの必要性を強調した。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Large-scale Graph Representation Learning of Dynamic Brain Connectome
with Transformers [18.304946718572516]
グラフ変換器を用いた動的機能接続の表現法を提案する。
具体的には、機能接続グラフの位置、構造、時間情報を保持するコネクトーム埋め込みを定義する。
3つのデータセットから得られた5万以上の静止状態fMRIサンプルを用いて実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:08:44Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。