論文の概要: MLP-AIR: An Efficient MLP-Based Method for Actor Interaction Relation
Learning in Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2304.08803v1
- Date: Tue, 18 Apr 2023 08:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:47:52.080479
- Title: MLP-AIR: An Efficient MLP-Based Method for Actor Interaction Relation
Learning in Group Activity Recognition
- Title(参考訳): MLP-AIR:グループ活動認識におけるアクターインタラクション関係学習のための効率的なMLPベース手法
- Authors: Guoliang Xu, Jianqin Yin
- Abstract要約: グループ活動認識(GAR)は,グループ内のアクターと時間的相互作用関係を学習することにより,グループの活動カテゴリを予測することを目的としている。
これまでの研究は主に、よく設計されたGCNやトランスフォーマーによる相互作用関係を学習してきた。
本稿では,GARにおけるアクターインタラクション関係学習(MLP-AIR)の新しい手法を設計する。
- 参考スコア(独自算出の注目度): 4.24515544235173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Group Activity Recognition (GAR) aims to predict the activity
category of the group by learning the actor spatial-temporal interaction
relation in the group. Therefore, an effective actor relation learning method
is crucial for the GAR task. The previous works mainly learn the interaction
relation by the well-designed GCNs or Transformers. For example, to infer the
actor interaction relation, GCNs need a learnable adjacency, and Transformers
need to calculate the self-attention. Although the above methods can model the
interaction relation effectively, they also increase the complexity of the
model (the number of parameters and computations). In this paper, we design a
novel MLP-based method for Actor Interaction Relation learning (MLP-AIR) in
GAR. Compared with GCNs and Transformers, our method has a competitive but
conceptually and technically simple alternative, significantly reducing the
complexity. Specifically, MLP-AIR includes three sub-modules: MLP-based Spatial
relation modeling module (MLP-S), MLP-based Temporal relation modeling module
(MLP-T), and MLP-based Relation refining module (MLP-R). MLP-S is used to model
the spatial relation between different actors in each frame. MLP-T is used to
model the temporal relation between different frames for each actor. MLP-R is
used further to refine the relation between different dimensions of relation
features to improve the feature's expression ability. To evaluate the MLP-AIR,
we conduct extensive experiments on two widely used benchmarks, including the
Volleyball and Collective Activity datasets. Experimental results demonstrate
that MLP-AIR can get competitive results but with low complexity.
- Abstract(参考訳): グループ活動認識(GAR)の課題は,グループ内のアクター空間的・時間的相互作用関係を学習することにより,グループの活動カテゴリを予測することである。
したがって、GARタスクには効果的なアクター関係学習法が不可欠である。
前作は主によく設計されたgcnまたはトランスフォーマによって相互作用関係を学ぶ。
例えば、アクターの相互作用関係を推測するためには、GCNは学習可能な隣接性を必要とし、トランスフォーマーは自己アテンションを計算する必要がある。
上記の手法は相互作用関係を効果的にモデル化することができるが、モデルの複雑さ(パラメータ数と計算量)も増大する。
本稿では,GARにおけるアクターインタラクション関係学習(MLP-AIR)のためのMLPに基づく新しい手法を設計する。
GCNやTransformersと比較すると,提案手法は競合するが概念的にはシンプルであり,複雑さを大幅に低減する。
具体的には、MLPベースの空間関係モデリングモジュール(MLP-S)、MLPベースの時間関係モデリングモジュール(MLP-T)、MLPベースの関係修正モジュール(MLP-R)の3つのサブモジュールを含む。
MLP-Sは、フレームごとに異なるアクター間の空間関係をモデル化するために使用される。
MLP-Tはアクターごとに異なるフレーム間の時間的関係をモデル化するために使用される。
MLP-Rはさらに、関係特徴の異なる次元の関係を洗練し、特徴の表現能力を向上させるために使われる。
MLP-AIRを評価するために、Volleyball と Collective Activity のデータセットを含む2つの広く使われているベンチマークで広範な実験を行った。
MLP-AIRは競争力のある結果が得られるが、複雑さは低い。
関連論文リスト
- KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Using Fitness Dependent Optimizer for Training Multi-layer Perceptron [13.280383503879158]
本研究は、最近提案されたFDO(Fitness Dependent)に依存する新しいトレーニングアルゴリズムを提案する。
このアルゴリズムの安定性は、探索と搾取の両方の段階で検証され、性能が保証されている。
FDOをトレーナーとして使用するアプローチは、データセット上で異なるトレーナーを使用して他のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-03T10:23:17Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - MOI-Mixer: Improving MLP-Mixer with Multi Order Interactions in
Sequential Recommendation [40.20599070308035]
トランスフォーマーベースのモデルは、シーケンス長に2次記憶と時間の複雑さを必要とするため、ユーザの長期的関心を抽出することは困難である。
線形メモリと時間複雑性で有名なMLPベースのモデルは、最近、様々なタスクにおいてTransformerと比較して競合する結果を示した。
本稿では,レイヤのメモリと時間の複雑さを維持しながら,任意の順序のインタラクションを表現できる多階インタラクション層を提案する。
論文 参考訳(メタデータ) (2021-08-17T08:38:49Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。