論文の概要: Group Contextualization for Video Recognition
- arxiv url: http://arxiv.org/abs/2203.09694v1
- Date: Fri, 18 Mar 2022 01:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:26:24.360832
- Title: Group Contextualization for Video Recognition
- Title(参考訳): ビデオ認識のためのグループコンテキスト化
- Authors: Yanbin Hao, Hao Zhang, Chong-Wah Ngo and Xiangnan He
- Abstract要約: グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
- 参考スコア(独自算出の注目度): 80.3842253625557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning discriminative representation from the complex spatio-temporal
dynamic space is essential for video recognition. On top of those stylized
spatio-temporal computational units, further refining the learnt feature with
axial contexts is demonstrated to be promising in achieving this goal. However,
previous works generally focus on utilizing a single kind of contexts to
calibrate entire feature channels and could hardly apply to deal with diverse
video activities. The problem can be tackled by using pair-wise spatio-temporal
attentions to recompute feature response with cross-axis contexts at the
expense of heavy computations. In this paper, we propose an efficient feature
refinement method that decomposes the feature channels into several groups and
separately refines them with different axial contexts in parallel. We refer
this lightweight feature calibration as group contextualization (GC).
Specifically, we design a family of efficient element-wise calibrators, i.e.,
ECal-G/S/T/L, where their axial contexts are information dynamics aggregated
from other axes either globally or locally, to contextualize feature channel
groups. The GC module can be densely plugged into each residual layer of the
off-the-shelf video networks. With little computational overhead, consistent
improvement is observed when plugging in GC on different networks. By utilizing
calibrators to embed feature with four different kinds of contexts in parallel,
the learnt representation is expected to be more resilient to diverse types of
activities. On videos with rich temporal variations, empirically GC can boost
the performance of 2D-CNN (e.g., TSN and TSM) to a level comparable to the
state-of-the-art video networks. Code is available at
https://github.com/haoyanbin918/Group-Contextualization.
- Abstract(参考訳): 複雑な時空間からの識別表現の学習はビデオ認識に不可欠である。
これらのスタイリングされた時空間計算ユニットに加えて、学習した特徴を軸的コンテキストでさらに洗練することが、この目標を達成する上で有望であることを示す。
しかし、従来の研究は、機能チャネル全体をキャリブレーションするために単一のコンテキストを利用することに重点を置いており、多様なビデオアクティビティにはほとんど適用できなかった。
この問題は、重計算を犠牲にして、クロス軸コンテキストによる特徴応答を再計算するために、ペアワイズな時空間的注意を用いることで解決できる。
本稿では,特徴チャネルを複数のグループに分割し,異なる軸方向のコンテキストで並列に処理する効率的な特徴改善手法を提案する。
この軽量な特徴キャリブレーションをグループ文脈化(GC)と呼ぶ。
具体的には,ecal-g/s/t/lという,軸方向の文脈が他の軸から集積された情報ダイナミクスである効率的な要素方向校正器群を設計,特徴チャネル群をコンテクスト化する。
GCモジュールは、市販のビデオネットワークの各残層に密に接続することができる。
計算オーバーヘッドが少ないため、異なるネットワーク上のGCをプラグインする場合、一貫した改善が観測される。
キャリブレータを用いて4種類のコンテキストを並列に埋め込むことで、学習者表現は多様な種類のアクティビティに対してより弾力性が期待できる。
時間変化の豊富なビデオでは、2D-CNN(TSNやTSM)の性能を最先端のビデオネットワークに匹敵するレベルまで向上させることができる。
コードはhttps://github.com/haoyanbin918/Group-Contextualizationで入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Learning Temporal Distribution and Spatial Correlation Towards Universal
Moving Object Segmentation [8.807766029291901]
本稿では,時空間分布と空間相関(LTS)の学習手法を提案する。
提案手法では,時間画素からの分布を,シーン非依存のセグメンテーションのための欠陥反復分布学習(DIDL)ネットワークで学習する。
提案手法は、パラメータが固定された多様で複雑な自然シーンのほとんどすべてのビデオに対してよく機能する。
論文 参考訳(メタデータ) (2023-04-19T20:03:09Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporal-attentive Covariance Pooling Networks for Video Recognition [52.853765492522655]
既存のビデオアーキテクチャは、通常、単純なグローバル平均プール法(GAP)を用いてグローバル表現を生成する。
本稿では,深いアーキテクチャの端に挿入される減衰共分散プーリング(TCP-TCP)を提案する。
我々のTCPはモデルに依存しないため、任意のビデオアーキテクチャに柔軟に統合できるため、効果的なビデオ認識のためのTCPNetとなる。
論文 参考訳(メタデータ) (2021-10-27T12:31:29Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。