論文の概要: COMPOSER: Compositional Learning of Group Activity in Videos
- arxiv url: http://arxiv.org/abs/2112.05892v1
- Date: Sat, 11 Dec 2021 01:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:46:39.227378
- Title: COMPOSER: Compositional Learning of Group Activity in Videos
- Title(参考訳): COMPOSER:ビデオにおけるグループ活動の合成学習
- Authors: Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long
Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
- Abstract要約: グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
- 参考スコア(独自算出の注目度): 33.526331969279106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Activity Recognition (GAR) detects the activity performed by a group of
actors in a short video clip. The task requires the compositional understanding
of scene entities and relational reasoning between them. We approach GAR by
modeling the video as a series of tokens that represent the multi-scale
semantic concepts in the video. We propose COMPOSER, a Multiscale Transformer
based architecture that performs attention-based reasoning over tokens at each
scale and learns group activity compositionally. In addition, we only use the
keypoint modality which reduces scene biases and improves the generalization
ability of the model. We improve the multi-scale representations in COMPOSER by
clustering the intermediate scale representations, while maintaining consistent
cluster assignments between scales. Finally, we use techniques such as
auxiliary prediction and novel data augmentations (e.g., Actor Dropout) to aid
model training. We demonstrate the model's strength and interpretability on the
challenging Volleyball dataset. COMPOSER achieves a new state-of-the-art 94.5%
accuracy with the keypoint-only modality. COMPOSER outperforms the latest GAR
methods that rely on RGB signals, and performs favorably compared against
methods that exploit multiple modalities. Our code will be available.
- Abstract(参考訳): グループアクティビティ認識(gar)は、短いビデオクリップで俳優のグループによって実行されるアクティビティを検出する。
このタスクはシーンエンティティの構成的理解とそれらの間の関係推論を必要とする。
ビデオ内のマルチスケールな意味概念を表現する一連のトークンとして,動画をモデル化することで,garにアプローチする。
マルチスケールトランスフォーマーベースのアーキテクチャであるComposERを提案し,各スケールでトークンに対する注意に基づく推論を行い,グループアクティビティを合成的に学習する。
さらに,シーンバイアスを低減し,モデルの一般化能力を向上させるキーポイントモダリティのみを使用する。
中間スケール表現をクラスタリングし,スケール間のクラスタ割り当ての一貫性を維持しながら,ComposERのマルチスケール表現を改善する。
最後に,補助予測や新たなデータ拡張(アクタドロップアウトなど)といった手法を用いてモデルトレーニングを支援する。
バレーボールデータセットに挑戦する上で,モデルの強みと解釈可能性を示す。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
COMPOSERは、RGB信号に依存する最新のGARメソッドよりも優れており、複数のモダリティを利用するメソッドに対して好意的に比較されている。
私たちのコードは利用可能です。
関連論文リスト
- Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。