論文の概要: LocFormer: Enabling Transformers to Perform Temporal Moment Localization
on Long Untrimmed Videos With a Feature Sampling Approach
- arxiv url: http://arxiv.org/abs/2112.10066v1
- Date: Sun, 19 Dec 2021 05:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:36:15.653606
- Title: LocFormer: Enabling Transformers to Perform Temporal Moment Localization
on Long Untrimmed Videos With a Feature Sampling Approach
- Title(参考訳): LocFormer:ロング・アントリミング・ビデオにおけるテンポラルモーメント・ローカライゼーションを実現するためのトランスフォーマー
- Authors: Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Basura Fernando,
Hiroya Takamura, Qi Wu
- Abstract要約: LocFormerはビデオグラウンドのためのTransformerベースのモデルで、ビデオの長さに関わらず一定のメモリフットプリントで動作する。
本稿では,機能分離のためのモジュール設計を提案し,自己注意型ヘッドの監視を通じて帰納的バイアスを学習する。
- 参考スコア(独自算出の注目度): 35.93734845932161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose LocFormer, a Transformer-based model for video grounding which
operates at a constant memory footprint regardless of the video length, i.e.
number of frames. LocFormer is designed for tasks where it is necessary to
process the entire long video and at its core lie two main contributions.
First, our model incorporates a new sampling technique that splits the input
feature sequence into a fixed number of sections and selects a single feature
per section using a stochastic approach, which allows us to obtain a feature
sample set that is representative of the video content for the task at hand
while keeping the memory footprint constant. Second, we propose a modular
design that separates functionality, enabling us to learn an inductive bias via
supervising the self-attention heads, while also effectively leveraging
pre-trained text and video encoders. We test our proposals on relevant
benchmark datasets for video grounding, showing that not only LocFormer can
achieve excellent results including state-of-the-art performance on YouCookII,
but also that our sampling technique is more effective than competing
counterparts and that it consistently improves the performance of prior work,
by up to 3.13\% in the mean temporal IoU, ultimately leading to a new
state-of-the-art performance on Charades-STA.
- Abstract(参考訳): 本稿では,ビデオのフレーム数によらず,一定のメモリフットプリントで動作するトランスフォーマーベースのビデオグラウンドモデルであるLocFormerを提案する。
LocFormerは、長いビデオ全体を処理する必要があるタスクのために設計されており、その中核には2つの主な貢献がある。
まず,入力特徴列を一定数のセクションに分割し,確率的アプローチで各セクション毎に1つの特徴を選択する新しいサンプリング手法を取り入れ,メモリフットプリントを一定に保ちつつ,手元のタスクの映像コンテンツを代表する特徴サンプルセットを得る。
第2に,機能分離のためのモジュール設計を提案し,自己注意ヘッドを監督し,事前学習したテキストやビデオエンコーダを効果的に活用することで,帰納的バイアスを学習できるようにする。
ビデオグラウンティングのための関連するベンチマークデータセット上で提案手法を検証したところ,locformerはyoucookiiの最先端性能を含む優れた成果を得られるだけでなく,サンプリング技術が競合相手よりも効果的であること,また,平均時間iouでは最大3.13\%向上し,最終的にcharades-staの最先端性能に繋がることがわかった。
関連論文リスト
- Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-09T09:46:26Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。