論文の概要: Hand Guided High Resolution Feature Enhancement for Fine-Grained Atomic
Action Segmentation within Complex Human Assemblies
- arxiv url: http://arxiv.org/abs/2211.13694v1
- Date: Thu, 24 Nov 2022 16:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:46:28.228647
- Title: Hand Guided High Resolution Feature Enhancement for Fine-Grained Atomic
Action Segmentation within Complex Human Assemblies
- Title(参考訳): 複雑なヒト集合体における微細粒度原子アクションセグメンテーションのための手誘導高分解能特徴強調
- Authors: Matthew Kent Myers, Nick Wright, Stephen McGough, Nicholas Martin
- Abstract要約: 本稿では,手指位置案内高解像度機能強化モデルを提案する。
また,実時間動作セグメンテーションのためのオフライン訓練行動認識モデルを簡易かつ効果的に展開する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the rapid temporal and fine-grained nature of complex human assembly
atomic actions, traditional action segmentation approaches requiring the
spatial (and often temporal) down sampling of video frames often loose vital
fine-grained spatial and temporal information required for accurate
classification within the manufacturing domain. In order to fully utilise
higher resolution video data (often collected within the manufacturing domain)
and facilitate real time accurate action segmentation - required for human
robot collaboration - we present a novel hand location guided high resolution
feature enhanced model. We also propose a simple yet effective method of
deploying offline trained action recognition models for real time action
segmentation on temporally short fine-grained actions, through the use of
surround sampling while training and temporally aware label cleaning at
inference. We evaluate our model on a novel action segmentation dataset
containing 24 (+background) atomic actions from video data of a real world
robotics assembly production line. Showing both high resolution hand features
as well as traditional frame wide features improve fine-grained atomic action
classification, and that though temporally aware label clearing our model is
capable of surpassing similar encoder/decoder methods, while allowing for real
time classification.
- Abstract(参考訳): 複雑な人間の原子組立動作の急激な時間的および微細な性質のため、伝統的なアクションセグメンテーションアプローチでは、ビデオフレームの空間的(そしてしばしば時間的)ダウンサンプリングが、製造領域内の正確な分類に必要な、重要な空間的および時間的情報を緩くする。
ロボットの協調作業に必要な高解像度映像データ(しばしば製造領域内で収集される)をフル活用し、リアルタイムなアクションセグメンテーションを容易にするために、我々は、新しい手の位置案内機能強化モデルを提案する。
また,学習中のサラウンドサンプリングと推定時のラベルクリーニングを用いて,リアルタイム動作セグメンテーションのための,オフラインで訓練されたアクション認識モデルを,簡易かつ効果的な方法で展開する手法を提案する。
実世界のロボット組立ラインのビデオデータから,24(+バックグラウンド)のアトミックアクションを含む新たなアクションセグメンテーションデータセットについて評価した。
高分解能な手と従来のフレームワイドの特徴の両方を示すことで、微粒な原子行動の分類が向上し、時間的に認識されたラベルのクリア化は、同様のエンコーダ/デコーダ法を超越し、リアルタイムな分類を可能にする。
関連論文リスト
- Coherent Temporal Synthesis for Incremental Action Segmentation [42.46228728930902]
本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-03-10T06:07:06Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。