論文の概要: COMPOSER: Compositional Learning of Group Activity in Videos
- arxiv url: http://arxiv.org/abs/2112.05892v1
- Date: Sat, 11 Dec 2021 01:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:46:39.227378
- Title: COMPOSER: Compositional Learning of Group Activity in Videos
- Title(参考訳): COMPOSER:ビデオにおけるグループ活動の合成学習
- Authors: Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long
Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
- Abstract要約: グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
- 参考スコア(独自算出の注目度): 33.526331969279106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Activity Recognition (GAR) detects the activity performed by a group of
actors in a short video clip. The task requires the compositional understanding
of scene entities and relational reasoning between them. We approach GAR by
modeling the video as a series of tokens that represent the multi-scale
semantic concepts in the video. We propose COMPOSER, a Multiscale Transformer
based architecture that performs attention-based reasoning over tokens at each
scale and learns group activity compositionally. In addition, we only use the
keypoint modality which reduces scene biases and improves the generalization
ability of the model. We improve the multi-scale representations in COMPOSER by
clustering the intermediate scale representations, while maintaining consistent
cluster assignments between scales. Finally, we use techniques such as
auxiliary prediction and novel data augmentations (e.g., Actor Dropout) to aid
model training. We demonstrate the model's strength and interpretability on the
challenging Volleyball dataset. COMPOSER achieves a new state-of-the-art 94.5%
accuracy with the keypoint-only modality. COMPOSER outperforms the latest GAR
methods that rely on RGB signals, and performs favorably compared against
methods that exploit multiple modalities. Our code will be available.
- Abstract(参考訳): グループアクティビティ認識(gar)は、短いビデオクリップで俳優のグループによって実行されるアクティビティを検出する。
このタスクはシーンエンティティの構成的理解とそれらの間の関係推論を必要とする。
ビデオ内のマルチスケールな意味概念を表現する一連のトークンとして,動画をモデル化することで,garにアプローチする。
マルチスケールトランスフォーマーベースのアーキテクチャであるComposERを提案し,各スケールでトークンに対する注意に基づく推論を行い,グループアクティビティを合成的に学習する。
さらに,シーンバイアスを低減し,モデルの一般化能力を向上させるキーポイントモダリティのみを使用する。
中間スケール表現をクラスタリングし,スケール間のクラスタ割り当ての一貫性を維持しながら,ComposERのマルチスケール表現を改善する。
最後に,補助予測や新たなデータ拡張(アクタドロップアウトなど)といった手法を用いてモデルトレーニングを支援する。
バレーボールデータセットに挑戦する上で,モデルの強みと解釈可能性を示す。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
COMPOSERは、RGB信号に依存する最新のGARメソッドよりも優れており、複数のモダリティを利用するメソッドに対して好意的に比較されている。
私たちのコードは利用可能です。
関連論文リスト
- Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - DECOMPL: Decompositional Learning with Attention Pooling for Group
Activity Recognition from a Single Volleyball Image [3.6144103736375857]
グループアクティビティ認識(GAR)は、複数のアクターがシーンで実行するアクティビティを検出することを目的としている。
本稿では,バレーボールビデオのための新しいGAR手法であるDECOMPLを提案する。
視覚枝では、アテンションプールを用いた特徴を選択的に抽出する。
座標系ではアクターの現在の構成を考慮し、ボックス座標から空間情報を抽出する。
論文 参考訳(メタデータ) (2023-03-11T16:30:51Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。