論文の概要: View while Moving: Efficient Video Recognition in Long-untrimmed Videos
- arxiv url: http://arxiv.org/abs/2308.04834v2
- Date: Wed, 20 Mar 2024 03:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:47:21.337182
- Title: View while Moving: Efficient Video Recognition in Long-untrimmed Videos
- Title(参考訳): 移動中の視線:長めのビデオにおける効率的なビデオ認識
- Authors: Ye Tian, Mengyu Yang, Lanshan Zhang, Zhizhen Zhang, Yang Liu, Xiaohui Xie, Xirong Que, Wendong Wang,
- Abstract要約: 本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
提案手法は精度と効率の両面で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 17.560160747282147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent adaptive methods for efficient video recognition mostly follow the two-stage paradigm of "preview-then-recognition" and have achieved great success on multiple video benchmarks. However, this two-stage paradigm involves two visits of raw frames from coarse-grained to fine-grained during inference (cannot be parallelized), and the captured spatiotemporal features cannot be reused in the second stage (due to varying granularity), being not friendly to efficiency and computation optimization. To this end, inspired by human cognition, we propose a novel recognition paradigm of "View while Moving" for efficient long-untrimmed video recognition. In contrast to the two-stage paradigm, our paradigm only needs to access the raw frame once. The two phases of coarse-grained sampling and fine-grained recognition are combined into unified spatiotemporal modeling, showing great performance. Moreover, we investigate the properties of semantic units in video and propose a hierarchical mechanism to efficiently capture and reason about the unit-level and video-level temporal semantics in long-untrimmed videos respectively. Extensive experiments on both long-untrimmed and short-trimmed videos demonstrate that our approach outperforms state-of-the-art methods in terms of accuracy as well as efficiency, yielding new efficiency and accuracy trade-offs for video spatiotemporal modeling.
- Abstract(参考訳): 近年の効率的なビデオ認識のための適応的手法は、主に「プレビュー・then-recognition」という2段階のパラダイムに従っており、複数のビデオベンチマークで大きな成功を収めている。
しかし、この2段階のパラダイムは、推論中に粗粒度から細粒度まで(並列化はできない)2段階の生フレームを訪問することを含み、捕獲された時空間的特徴は第2段階(粒度の変化による)では再利用できないため、効率や計算の最適化には適さない。
この目的のために,人間の認識に触発されて,より効率的な長めの映像認識のための「移動中のビュー」という新しい認識パラダイムを提案する。
2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。
粗粒度サンプリングと微粒化認識の2つのフェーズを統合時空間モデリングに組み合わせ、優れた性能を示す。
さらに,ビデオ中のセマンティックな単位の性質について検討し,長めの動画における単位レベルとビデオレベルの時間的意味論を効率的に把握し,推論する階層的なメカニズムを提案する。
提案手法は高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細度・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精・高精・高精・高精・高精・高精
関連論文リスト
- Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - LocFormer: Enabling Transformers to Perform Temporal Moment Localization
on Long Untrimmed Videos With a Feature Sampling Approach [35.93734845932161]
LocFormerはビデオグラウンドのためのTransformerベースのモデルで、ビデオの長さに関わらず一定のメモリフットプリントで動作する。
本稿では,機能分離のためのモジュール設計を提案し,自己注意型ヘッドの監視を通じて帰納的バイアスを学習する。
論文 参考訳(メタデータ) (2021-12-19T05:32:14Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - FrameExit: Conditional Early Exiting for Efficient Video Recognition [11.92976432364216]
効率的なビデオ認識のための条件付き早期終了フレームワークを提案する。
私たちのモデルは、単純なビデオのフレーム数を減らし、複雑なビデオのフレーム数を増やすことを学びます。
提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
論文 参考訳(メタデータ) (2021-04-27T18:01:05Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。