論文の概要: TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2303.09055v1
- Date: Thu, 16 Mar 2023 03:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:53:00.467087
- Title: TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization
- Title(参考訳): 時間的マックス: 時間的行動局所化のための最大極小化による時間的文脈の最大化
- Authors: Tuan N. Tang, Kwonyoung Kim, Kwanghoon Sohn
- Abstract要約: 我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 52.234877003211814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) is a challenging task in video
understanding that aims to identify and localize actions within a video
sequence. Recent studies have emphasized the importance of applying long-term
temporal context modeling (TCM) blocks to the extracted video clip features
such as employing complex self-attention mechanisms. In this paper, we present
the simplest method ever to address this task and argue that the extracted
video clip features are already informative to achieve outstanding performance
without sophisticated architectures. To this end, we introduce TemporalMaxer,
which minimizes long-term temporal context modeling while maximizing
information from the extracted video clip features with a basic,
parameter-free, and local region operating max-pooling block. Picking out only
the most critical information for adjacent and local clip embeddings, this
block results in a more efficient TAL model. We demonstrate that TemporalMaxer
outperforms other state-of-the-art methods that utilize long-term TCM such as
self-attention on various TAL datasets while requiring significantly fewer
parameters and computational resources. The code for our approach is publicly
available at https://github.com/TuanTNG/TemporalMaxer
- Abstract(参考訳): テンポラルアクションローカライゼーション(TAL)は、ビデオシーケンス内のアクションを特定し、ローカライズすることを目的とした、ビデオ理解における課題である。
近年,ビデオクリップの特徴抽出にtcm(long-term temporal context modeling)ブロックを適用することの重要性が注目されている。
本稿では,この課題に対処する最も簡単な手法を提案するとともに,抽出したビデオクリップ機能は,高度なアーキテクチャを使わずに優れた性能を実現するためにすでに有益である,と論じる。
そこで本研究では,抽出したビデオクリップの特徴量から得られた情報を最大化しつつ,最大プールブロックを基本かつパラメータフリーかつ局所的に操作する時間的文脈モデリングを最小化する時間的最大化手法を提案する。
隣接およびローカルのクリップ埋め込みに対して最も重要な情報だけを選択すると、このブロックはより効率的なtalモデルになる。
我々は,temporalmaxerがtalデータセットへの自己アテンションなどの長期的tcmを利用する他の最先端手法よりも優れており,パラメータや計算資源が大幅に少ないことを実証する。
このアプローチのコードはhttps://github.com/TuanTNG/TemporalMaxerで公開されています。
関連論文リスト
- Streaming Video Temporal Action Segmentation In Real Time [3.4961786306972087]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - NUTA: Non-uniform Temporal Aggregation for Action Recognition [29.75987323741384]
非一様時間集合(NUTA)と呼ばれる手法を提案し,情報的時間セグメントのみから特徴を集約する。
我々のモデルは、広く使われている4つの大規模行動認識データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2020-12-15T02:03:37Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。