論文の概要: Skimming and Scanning for Untrimmed Video Action Recognition
- arxiv url: http://arxiv.org/abs/2104.10492v1
- Date: Wed, 21 Apr 2021 12:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:24:21.826895
- Title: Skimming and Scanning for Untrimmed Video Action Recognition
- Title(参考訳): 映像行動認識のためのスキーと走査
- Authors: Yunyan Hong, Ailing Zeng, Min Li, Cewu Lu, Li Jiang, Qiang Xu
- Abstract要約: 非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがある。
skim-scan技術に基づく,単純かつ効果的なクリップレベルソリューションを提案する。
我々のソリューションは、精度と効率の両面で最先端のパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 44.70501912319826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video action recognition (VAR) is a primary task of video understanding, and
untrimmed videos are more common in real-life scenes. Untrimmed videos have
redundant and diverse clips containing contextual information, so sampling
dense clips is essential. Recently, some works attempt to train a generic model
to select the N most representative clips. However, it is difficult to model
the complex relations from intra-class clips and inter-class videos within a
single model and fixed selected number, and the entanglement of multiple
relations is also hard to explain. Thus, instead of "only look once", we argue
"divide and conquer" strategy will be more suitable in untrimmed VAR. Inspired
by the speed reading mechanism, we propose a simple yet effective clip-level
solution based on skim-scan techniques. Specifically, the proposed Skim-Scan
framework first skims the entire video and drops those uninformative and
misleading clips. For the remaining clips, it scans clips with diverse features
gradually to drop redundant clips but cover essential content. The above
strategies can adaptively select the necessary clips according to the
difficulty of the different videos. To trade off the computational complexity
and performance, we observe the similar statistical expression between
lightweight and heavy networks, thus it supports us to explore the combination
of them. Comprehensive experiments are performed on ActivityNet and mini-FCVID
datasets, and results demonstrate that our solution surpasses the
state-of-the-art performance in terms of both accuracy and efficiency.
- Abstract(参考訳): ビデオアクション認識(var)はビデオ理解の主要なタスクであり、未編集の動画は現実のシーンでより一般的である。
非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがあるため、濃密なクリップのサンプリングが不可欠である。
最近、Nが最も代表的なクリップを選択するためにジェネリックモデルをトレーニングしようとする研究もある。
しかし,クラス内クリップとクラス間ビデオの複雑な関係を1つのモデルと固定された選択数でモデル化することは困難であり,複数の関係の絡み合いも説明が困難である。
したがって、我々は「一度だけ見る」のではなく、「分割して征服する」戦略が未熟なVARにもっと適すると論じている。
高速読解機構に触発されて,skim-scan技術に基づく簡易かつ効果的なクリップレベルソリューションを提案する。
特に、提案されているskim-scanフレームワークは、まずビデオ全体をスキップし、意図しない、誤解を招くクリップを落とします。
残りのクリップは、さまざまな機能を備えたクリップをスキャンして、冗長なクリップをドロップするが、必須のコンテンツをカバーする。
上記の戦略は、異なるビデオの難易度に応じて、必要なクリップを適応的に選択することができる。
計算複雑性と性能をトレードオフするため,軽量ネットワークと重ネットワークの類似した統計的表現を観測し,それらの組み合わせについて検討する。
ActivityNet と mini-FCVID データセットで総合実験を行い,その精度と効率の両面で,我々のソリューションが最先端の性能を上回ることを示した。
関連論文リスト
- Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。