論文の概要: Actor-Transformers for Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2003.12737v1
- Date: Sat, 28 Mar 2020 07:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:45:46.167440
- Title: Actor-Transformers for Group Activity Recognition
- Title(参考訳): グループ活動認識のためのアクタ変換器
- Authors: Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, Cees G. M. Snoek
- Abstract要約: 本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
本稿では,グループ活動認識に関連する情報を学習し,選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 43.60866347282833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives to recognize individual actions and group activities from
videos. While existing solutions for this challenging problem explicitly model
spatial and temporal relationships based on location of individual actors, we
propose an actor-transformer model able to learn and selectively extract
information relevant for group activity recognition. We feed the transformer
with rich actor-specific static and dynamic representations expressed by
features from a 2D pose network and 3D CNN, respectively. We empirically study
different ways to combine these representations and show their complementary
benefits. Experiments show what is important to transform and how it should be
transformed. What is more, actor-transformers achieve state-of-the-art results
on two publicly available benchmarks for group activity recognition,
outperforming the previous best published results by a considerable margin.
- Abstract(参考訳): 本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。
この課題に対する既存の解決策は、個々のアクターの位置に基づく空間的・時間的関係を明示的にモデル化する一方で、グループ活動認識に関連する情報を学習し、選択的に抽出できるアクター・トランスフォーマーモデルを提案する。
2次元ポーズネットワークと3次元CNNの機能によって表現されるリッチなアクター固有の静的表現と動的表現をトランスフォーマーに提供する。
我々はこれらの表現を組み合わせる様々な方法を経験的に研究し、相補的な利点を示す。
実験は、トランスフォーメーションの重要性と、トランスフォーメーションの方法を示しています。
さらに、アクタトランスフォーマーは、グループアクティビティ認識の2つの公開ベンチマークで最先端の結果を達成し、これまでの最高の結果を大幅に上回っています。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection [67.90338302559672]
生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択して関係モデリングを改善することを提案する。
我々は、アクターとコンテキストの関係を双方向形式でモデル化する対称グラフを持つCycleACR(CycleACR)を開発した。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
論文 参考訳(メタデータ) (2023-03-28T16:40:47Z) - SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group
Activity Recognition [47.3759947287782]
本稿では, グループ活動認識(GAR)に対する, ラベル付きビデオデータを用いた新しい, 単純で効果的な自己監督型時空間変換器(TAN)を提案する。
論文 参考訳(メタデータ) (2023-03-06T16:58:27Z) - Interaction Region Visual Transformer for Egocentric Action Anticipation [18.873728614415946]
本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。
空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。
次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。
これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
論文 参考訳(メタデータ) (2022-11-25T15:00:51Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。