論文の概要: Deep set conditioned latent representations for action recognition
- arxiv url: http://arxiv.org/abs/2212.11030v1
- Date: Wed, 21 Dec 2022 14:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:14:06.889206
- Title: Deep set conditioned latent representations for action recognition
- Title(参考訳): 行動認識のための深部設定条件付き潜時表現
- Authors: Akash Singh, Tom De Schepper, Kevin Mets, Peter Hellinckx, Jose
Oramas, Steven Latre
- Abstract要約: 現実世界では、原子の作用はしばしば時間的に結合し、より複雑な複合作用を形成する。
本研究では,オブジェクトとアクションの意味論的概念を学習する手法を提案する。
我々は、ANNが事前学習、リレーショナル帰納バイアス、および非順序セットベース潜在表現の利点を実証的に示す。
- 参考スコア(独自算出の注目度): 0.7340017786387767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years multi-label, multi-class video action recognition has gained
significant popularity. While reasoning over temporally connected atomic
actions is mundane for intelligent species, standard artificial neural networks
(ANN) still struggle to classify them. In the real world, atomic actions often
temporally connect to form more complex composite actions. The challenge lies
in recognising composite action of varying durations while other distinct
composite or atomic actions occur in the background. Drawing upon the success
of relational networks, we propose methods that learn to reason over the
semantic concept of objects and actions. We empirically show how ANNs benefit
from pretraining, relational inductive biases and unordered set-based latent
representations. In this paper we propose deep set conditioned I3D (SCI3D), a
two stream relational network that employs latent representation of state and
visual representation for reasoning over events and actions. They learn to
reason about temporally connected actions in order to identify all of them in
the video. The proposed method achieves an improvement of around 1.49% mAP in
atomic action recognition and 17.57% mAP in composite action recognition, over
a I3D-NL baseline, on the CATER dataset.
- Abstract(参考訳): 近年,マルチレーベルのマルチクラス映像認識が注目されている。
時間的結合された原子の作用を推論することは知的種にとってありふれたことだが、標準的な人工ニューラルネットワーク(ann)は分類に苦慮している。
現実世界では、原子の作用はしばしば時間的に結合し、より複雑な複合作用を形成する。
課題は、様々な期間の複合作用を認識することにあるが、他の異なる複合作用や原子作用はバックグラウンドで起こる。
本稿では,リレーショナルネットワークの成功に基づいて,オブジェクトとアクションの意味論的概念を推論する手法を提案する。
我々は, ann の事前学習,関係帰納バイアス,非順序集合に基づく潜在表現の利点を実証的に示す。
本稿では,イベントやアクションを推論するために,状態の潜在表現と視覚的表現を用いる2ストリーム関係ネットワークであるdeep set conditioned i3d (sci3d)を提案する。
彼らは、ビデオの中でそれらすべてを識別するために、時間的に繋がるアクションについて推論することを学ぶ。
提案手法は,CATERデータセット上のI3D-NLベースラインよりも,原子行動認識における約1.49% mAP,複合行動認識における17.57% mAPの改善を実現する。
関連論文リスト
- Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。