論文の概要: MS-TCRNet: Multi-Stage Temporal Convolutional Recurrent Networks for Action Segmentation Using Sensor-Augmented Kinematics
- arxiv url: http://arxiv.org/abs/2303.07814v2
- Date: Fri, 12 Jul 2024 15:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 06:06:24.243782
- Title: MS-TCRNet: Multi-Stage Temporal Convolutional Recurrent Networks for Action Segmentation Using Sensor-Augmented Kinematics
- Title(参考訳): MS-TCRNet:センサ強化キネマティクスを用いた動作セグメンテーションのための多段階時間畳み込みリカレントネットワーク
- Authors: Adam Goldbraikh, Omer Shubi, Or Rubin, Carla M Pugh, Shlomi Laufer,
- Abstract要約: 本研究は,運動学的データに対する行動セグメンテーションに関連する2つのコントリビューションを提示する。
本稿では,キーネマティックデータに特化して設計されたMulti-Stage Temporal Convolutional Recurrent Networks (MS-TCRNet) の2つのバージョンを紹介する。
第2に、キネマティックデータの強い幾何学的構造を利用してアルゴリズムの性能とロバスト性を向上する、World Frame RotationとHand Inversionという2つの新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Action segmentation is a challenging task in high-level process analysis, typically performed on video or kinematic data obtained from various sensors. This work presents two contributions related to action segmentation on kinematic data. Firstly, we introduce two versions of Multi-Stage Temporal Convolutional Recurrent Networks (MS-TCRNet), specifically designed for kinematic data. The architectures consist of a prediction generator with intra-stage regularization and Bidirectional LSTM or GRU-based refinement stages. Secondly, we propose two new data augmentation techniques, World Frame Rotation and Hand Inversion, which utilize the strong geometric structure of kinematic data to improve algorithm performance and robustness. We evaluate our models on three datasets of surgical suturing tasks: the Variable Tissue Simulation (VTS) Dataset and the newly introduced Bowel Repair Simulation (BRS) Dataset, both of which are open surgery simulation datasets collected by us, as well as the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS), a well-known benchmark in robotic surgery. Our methods achieved state-of-the-art performance.
- Abstract(参考訳): アクションセグメンテーション(Action segmentation)は、様々なセンサーから得られるビデオやキネマティックデータで通常実行される、ハイレベルなプロセス分析において難しいタスクである。
本研究は,運動学的データに対する行動セグメンテーションに関連する2つのコントリビューションを提示する。
まず,動作データに特化して設計されたMS-TCRNet(Multi-Stage Temporal Convolutional Recurrent Networks)の2つのバージョンを紹介する。
アーキテクチャは、ステージ内正規化を備えた予測ジェネレータと、双方向LSTMまたはGRUベースの精錬ステージで構成されている。
第2に、キネマティックデータの強い幾何学的構造を利用してアルゴリズムの性能とロバスト性を向上する、World Frame RotationとHand Inversionという2つの新しいデータ拡張手法を提案する。
手術縫合作業の3つのデータセット: 可変組織シミュレーション(VTS)データセットと新たに導入されたボウエル修復シミュレーション(BRS)データセット、およびロボット手術におけるよく知られたベンチマークであるJHU-ISI Gesture and Skill Assessment Working Set(JIGSAWS)データセットについて、本モデルの評価を行った。
我々の手法は最先端のパフォーマンスを達成した。
関連論文リスト
- Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network [4.386534439007928]
本稿では,GTNNと呼ばれるグラフトランスフォーマーニューラルネットワークを用いたイベントベース動作分割アルゴリズムを提案する。
提案アルゴリズムは, イベント間の局所的および大域的相関を明らかにするために, 一連の非線形変換により, イベントストリームを3次元グラフとして処理する。
GTNNは、動的背景変動、動きパターン、および様々な大きさと速度を持つ複数の動的物体の存在下で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:44:29Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Med-DANet V2: A Flexible Dynamic Architecture for Efficient Medical
Volumetric Segmentation [29.082411035685773]
医用セグメンテーションのための動的アーキテクチャネットワーク(Med-DANet)は、良好な精度と効率のトレードオフを実現している。
本稿では、データ自体とモデル構造の両方の観点から、動的推論フレームワークの統一的な定式化について検討する。
当社のフレームワークでは,BraTS 2019のセグメンテーション結果と同等で,モデル効率を4.1倍と17.3倍に向上しています。
論文 参考訳(メタデータ) (2023-10-28T09:57:28Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。