論文の概要: TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2303.09055v1
- Date: Thu, 16 Mar 2023 03:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:53:00.467087
- Title: TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization
- Title(参考訳): 時間的マックス: 時間的行動局所化のための最大極小化による時間的文脈の最大化
- Authors: Tuan N. Tang, Kwonyoung Kim, Kwanghoon Sohn
- Abstract要約: 我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 52.234877003211814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) is a challenging task in video
understanding that aims to identify and localize actions within a video
sequence. Recent studies have emphasized the importance of applying long-term
temporal context modeling (TCM) blocks to the extracted video clip features
such as employing complex self-attention mechanisms. In this paper, we present
the simplest method ever to address this task and argue that the extracted
video clip features are already informative to achieve outstanding performance
without sophisticated architectures. To this end, we introduce TemporalMaxer,
which minimizes long-term temporal context modeling while maximizing
information from the extracted video clip features with a basic,
parameter-free, and local region operating max-pooling block. Picking out only
the most critical information for adjacent and local clip embeddings, this
block results in a more efficient TAL model. We demonstrate that TemporalMaxer
outperforms other state-of-the-art methods that utilize long-term TCM such as
self-attention on various TAL datasets while requiring significantly fewer
parameters and computational resources. The code for our approach is publicly
available at https://github.com/TuanTNG/TemporalMaxer
- Abstract(参考訳): テンポラルアクションローカライゼーション(TAL)は、ビデオシーケンス内のアクションを特定し、ローカライズすることを目的とした、ビデオ理解における課題である。
近年,ビデオクリップの特徴抽出にtcm(long-term temporal context modeling)ブロックを適用することの重要性が注目されている。
本稿では,この課題に対処する最も簡単な手法を提案するとともに,抽出したビデオクリップ機能は,高度なアーキテクチャを使わずに優れた性能を実現するためにすでに有益である,と論じる。
そこで本研究では,抽出したビデオクリップの特徴量から得られた情報を最大化しつつ,最大プールブロックを基本かつパラメータフリーかつ局所的に操作する時間的文脈モデリングを最小化する時間的最大化手法を提案する。
隣接およびローカルのクリップ埋め込みに対して最も重要な情報だけを選択すると、このブロックはより効率的なtalモデルになる。
我々は,temporalmaxerがtalデータセットへの自己アテンションなどの長期的tcmを利用する他の最先端手法よりも優れており,パラメータや計算資源が大幅に少ないことを実証する。
このアプローチのコードはhttps://github.com/TuanTNG/TemporalMaxerで公開されています。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - How Much Temporal Long-Term Context is Needed for Action Segmentation? [16.89998201009075]
ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
論文 参考訳(メタデータ) (2023-08-22T11:20:40Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - NUTA: Non-uniform Temporal Aggregation for Action Recognition [29.75987323741384]
非一様時間集合(NUTA)と呼ばれる手法を提案し,情報的時間セグメントのみから特徴を集約する。
我々のモデルは、広く使われている4つの大規模行動認識データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2020-12-15T02:03:37Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。