論文の概要: Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization
- arxiv url: http://arxiv.org/abs/2306.07576v1
- Date: Tue, 13 Jun 2023 06:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:51:41.247294
- Title: Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization
- Title(参考訳): マルチストリームモーションモデリングと相互情報最大化による行動認識
- Authors: Yuheng Yang, Haipeng Chen, Zhenguang Liu, Yingda Lyu, Beibei Zhang,
Shuang Wu, Zhibo Wang, Kui Ren
- Abstract要約: 行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
- 参考スコア(独自算出の注目度): 44.73161606369333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition has long been a fundamental and intriguing problem in
artificial intelligence. The task is challenging due to the high dimensionality
nature of an action, as well as the subtle motion details to be considered.
Current state-of-the-art approaches typically learn from articulated motion
sequences in the straightforward 3D Euclidean space. However, the vanilla
Euclidean space is not efficient for modeling important motion characteristics
such as the joint-wise angular acceleration, which reveals the driving force
behind the motion. Moreover, current methods typically attend to each channel
equally and lack theoretical constrains on extracting task-relevant features
from the input.
In this paper, we seek to tackle these challenges from three aspects: (1) We
propose to incorporate an acceleration representation, explicitly modeling the
higher-order variations in motion. (2) We introduce a novel Stream-GCN network
equipped with multi-stream components and channel attention, where different
representations (i.e., streams) supplement each other towards a more precise
action recognition while attention capitalizes on those important channels. (3)
We explore feature-level supervision for maximizing the extraction of
task-relevant information and formulate this into a mutual information loss.
Empirically, our approach sets the new state-of-the-art performance on three
benchmark datasets, NTU RGB+D, NTU RGB+D 120, and NW-UCLA. Our code is
anonymously released at https://github.com/ActionR-Group/Stream-GCN, hoping to
inspire the community.
- Abstract(参考訳): アクション認識は、人工知能の根本的で興味深い問題だった。
タスクは、アクションの高次元性、および考慮すべき微妙な動きの詳細のために難しい。
現在の最先端のアプローチは典型的に3次元ユークリッド空間における調音運動列から学ぶ。
しかしながら、バニラユークリッド空間は、運動の背後にある駆動力を明らかにする共同角加速度のような重要な運動特性をモデル化するのに効率的ではない。
さらに、現在の手法は一般に各チャネルに等しく参加し、入力からタスク関連特徴を抽出する理論的制約を欠いている。
本稿では,これらの課題を3つの側面から解決しようとする。(1)アクセラレーション表現を導入し,高次運動の変動を明示的にモデル化する。
2)マルチストリームコンポーネントとチャネルアテンションを備えた新しいストリームgcnネットワークを導入し,これらの重要なチャネルに着目しながら,異なる表現(ストリーム)がより正確なアクション認識に向けて相互補完する。
(3)タスク関連情報の抽出を最大化し,これを相互情報損失に定式化する特徴レベルの監視について検討する。
提案手法は,NTU RGB+D,NTU RGB+D 120,NW-UCLAの3つのベンチマークデータセットに対して,新しい最先端性能を実証的に設定する。
私たちのコードはhttps://github.com/ActionR-Group/Stream-GCNで匿名でリリースされています。
関連論文リスト
- Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。