論文の概要: Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories
- arxiv url: http://arxiv.org/abs/2104.01198v1
- Date: Fri, 2 Apr 2021 18:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:40:59.967545
- Title: Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories
- Title(参考訳): 短いクリップを超えて:コラボレーション記憶によるエンドツーエンドのビデオレベル学習
- Authors: Xitong Yang, Haoqi Fan, Lorenzo Torresani, Larry Davis and Heng Wang
- Abstract要約: 本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 56.91664227337115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard way of training video models entails sampling at each iteration
a single clip from a video and optimizing the clip prediction with respect to
the video-level label. We argue that a single clip may not have enough temporal
coverage to exhibit the label to recognize, since video datasets are often
weakly labeled with categorical information but without dense temporal
annotations. Furthermore, optimizing the model over brief clips impedes its
ability to learn long-term temporal dependencies. To overcome these
limitations, we introduce a collaborative memory mechanism that encodes
information across multiple sampled clips of a video at each training
iteration. This enables the learning of long-range dependencies beyond a single
clip. We explore different design choices for the collaborative memory to ease
the optimization difficulties. Our proposed framework is end-to-end trainable
and significantly improves the accuracy of video classification at a negligible
computational overhead. Through extensive experiments, we demonstrate that our
framework generalizes to different video architectures and tasks, outperforming
the state of the art on both action recognition (e.g., Kinetics-400 & 700,
Charades, Something-Something-V1) and action detection (e.g., AVA v2.1 & v2.2).
- Abstract(参考訳): ビデオモデルをトレーニングする標準的な方法は、イテレーション毎にビデオから1つのクリップをサンプリングし、ビデオレベルのラベルに関してクリップ予測を最適化する。
ビデオデータセットは分類情報で弱められていることが多いが、密集した時間的アノテーションがないため、一つのクリップは認識するラベルを示すのに十分な時間的カバレッジを持っていない。
さらに、短いクリップでモデルを最適化することは、長期的な時間的依存関係を学習する能力を妨げる。
これらの制限を克服するために,各トレーニングイテレーションでビデオの複数のサンプルクリップにまたがって情報をエンコードする協調記憶機構を導入する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
最適化の困難さを和らげるために,協調記憶の異なる設計選択を探索する。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
大規模な実験を通じて、我々のフレームワークが様々なビデオアーキテクチャやタスクに一般化し、アクション認識(Kinetics-400 & 700, Charades, Something-Something-V1)とアクション検出(AVA v2.1 & v2.2)の両方で、技術の現状を上回ります。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Skimming and Scanning for Untrimmed Video Action Recognition [44.70501912319826]
非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがある。
skim-scan技術に基づく,単純かつ効果的なクリップレベルソリューションを提案する。
我々のソリューションは、精度と効率の両面で最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-04-21T12:23:44Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。