論文の概要: Home Action Genome: Cooperative Compositional Action Understanding
- arxiv url: http://arxiv.org/abs/2105.05226v1
- Date: Tue, 11 May 2021 17:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 16:02:52.657734
- Title: Home Action Genome: Cooperative Compositional Action Understanding
- Title(参考訳): ホームアクションゲノム:協調的構成的行動理解
- Authors: Nishant Rai, Haofeng Chen, Jingwei Ji, Rishi Desai, Kazuki Kozuka,
Shun Ishizaka, Ehsan Adeli, Juan Carlos Niebles
- Abstract要約: アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
- 参考スコア(独自算出の注目度): 33.69990813932372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research on action recognition treats activities as monolithic
events occurring in videos. Recently, the benefits of formulating actions as a
combination of atomic-actions have shown promise in improving action
understanding with the emergence of datasets containing such annotations,
allowing us to learn representations capturing this information. However, there
remains a lack of studies that extend action composition and leverage multiple
viewpoints and multiple modalities of data for representation learning. To
promote research in this direction, we introduce Home Action Genome (HOMAGE): a
multi-view action dataset with multiple modalities and view-points supplemented
with hierarchical activity and atomic action labels together with dense scene
composition labels. Leveraging rich multi-modal and multi-view settings, we
propose Cooperative Compositional Action Understanding (CCAU), a cooperative
learning framework for hierarchical action recognition that is aware of
compositional action elements. CCAU shows consistent performance improvements
across all modalities. Furthermore, we demonstrate the utility of co-learning
compositions in few-shot action recognition by achieving 28.6% mAP with just a
single sample.
- Abstract(参考訳): アクション認識に関する既存の研究は、アクティビティをビデオで発生するモノリシックなイベントとして扱う。
近年,このようなアノテーションを含むデータセットの出現にともなって,行動理解の向上に期待が持たれており,これらの情報を取得する表現を学習することができる。
しかし、行動構成を拡張し、表現学習に複数の視点とデータの多様性を利用する研究が不足している。
この方向の研究を促進するために,階層的な活動とアトミックなアクションラベルを付加した多視点アクションデータセットであるHome Action Genome (HOMAGE)を紹介した。
本稿では,複合行動要素を意識した階層的行動認識のための協調学習フレームワークである協調的構成行動理解(ccau)を提案する。
CCAUはすべてのモダリティに対して一貫したパフォーマンス改善を示す。
さらに,1つのサンプルで28.6%のmAPを達成し,数発のアクション認識における共学習合成の有用性を実証した。
関連論文リスト
- Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - SAFCAR: Structured Attention Fusion for Compositional Action Recognition [47.43959215267547]
我々は,物体検出からの情報を組み合わせた新しい自己注意機構(Structured Attention Fusion, SAF)を開発し, 検証する。
提案手法は, 従来の技術システムよりも, 新規な動詞合成を効果的に認識するものである。
我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-12-03T17:45:01Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。