論文の概要: Domain and View-point Agnostic Hand Action Recognition
- arxiv url: http://arxiv.org/abs/2103.02303v1
- Date: Wed, 3 Mar 2021 10:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 22:39:26.363416
- Title: Domain and View-point Agnostic Hand Action Recognition
- Title(参考訳): ドメインとビューポイント非依存ハンドアクション認識
- Authors: Alberto Sabater, I\~nigo Alonso, Luis Montesano, Ana C. Murillo
- Abstract要約: この問題に対処する新しい骨格型手の動き表現モデルを提案する。
一つの特定のドメイン(ドメイン間動作分類)と異なる未確認ドメイン(ドメイン間動作分類)の両方に作用する動作表現モデルの性能を実証する。
このアプローチは、ドメイン内でトレーニングされた最先端のメソッドに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 6.432798111887824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hand action recognition is a special case of human action recognition with
applications in human robot interaction, virtual reality or life-logging
systems. Building action classifiers that are useful to recognize such
heterogeneous set of activities is very challenging. There are very subtle
changes across different actions from a given application but also large
variations across domains (e.g. virtual reality vs life-logging). This work
introduces a novel skeleton-based hand motion representation model that tackles
this problem. The framework we propose is agnostic to the application domain or
camera recording view-point. We demonstrate the performance of our proposed
motion representation model both working for a single specific domain
(intra-domain action classification) and working for different unseen domains
(cross-domain action classification). For the intra-domain case, our approach
gets better or similar performance than current state-of-the-art methods on
well-known hand action recognition benchmarks. And when performing cross-domain
hand action recognition (i.e., training our motion representation model in
frontal-view recordings and testing it both for egocentric and third-person
views), our approach achieves comparable results to the state-of-the-art
methods that are trained intra-domain.
- Abstract(参考訳): 手の行為の認識は人間のロボット相互作用、仮想現実または生命記録システムの適用を用いる人間の行為の認識の特別な例です。
このような異種アクティビティのセットを認識するのに有用なアクション分類器を構築することは非常に困難です。
特定のアプリケーションから異なるアクションにまたがる非常に微妙な変更があるが、ドメイン間での大きなバリエーション(例)もある。
仮想現実 vs ライフログ)。
この課題に対処する新しい骨格に基づく手の動き表現モデルを導入する。
提案するフレームワークは、アプリケーションドメインやカメラ記録ビューポイントに依存しない。
本稿では,1つの特定のドメイン(ドメイン間動作分類)と異なるドメイン(ドメイン間動作分類)の両方に作用する動作表現モデルの性能を示す。
ドメイン内のケースでは、私たちのアプローチは、よく知られたハンドアクション認識ベンチマークの現在の最先端の方法よりも優れたまたは同様のパフォーマンスを得ます。
そして、ドメイン間ハンドアクション認識(すなわち、フロントビュー記録におけるモーション表現モデルをトレーニングし、エゴセントリックと第三者のビューの両方でテストする)を行う場合、このアプローチは、ドメイン内でトレーニングされた最先端のメソッドに匹敵する結果を得る。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Adversarial Domain Adaptation for Action Recognition Around the Clock [0.7614628596146599]
本稿では,ドメイン適応に基づく行動認識手法を提案する。
クロスドメイン設定での敵対的学習を使用して、クロスドメインアクション認識を学習する。
InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-25T01:08:27Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。
ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。
実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文 参考訳(メタデータ) (2021-04-30T06:38:23Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。