論文の概要: VideoLT: Large-scale Long-tailed Video Recognition
- arxiv url: http://arxiv.org/abs/2105.02668v1
- Date: Thu, 6 May 2021 13:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:22:15.208799
- Title: VideoLT: Large-scale Long-tailed Video Recognition
- Title(参考訳): VideoLT: 大規模ロングテールビデオ認識
- Authors: Xing Zhang, Zuxuan Wu, Zejia Weng, Huazhu Fu, Jingjing Chen, Yu-Gang
Jiang, Larry Davis
- Abstract要約: 大規模な長尾ビデオ認識データセットであるVideoLTを紹介します。
videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。
長尾ビデオ認識タスクの簡便かつ効果的な方法であるFrameStackを提案する。
- 参考スコア(独自算出の注目度): 100.15503884988736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label distributions in real-world are oftentimes long-tailed and imbalanced,
resulting in biased models towards dominant labels. While long-tailed
recognition has been extensively studied for image classification tasks,
limited effort has been made for video domain. In this paper, we introduce
VideoLT, a large-scale long-tailed video recognition dataset, as a step toward
real-world video recognition. Our VideoLT contains 256,218 untrimmed videos,
annotated into 1,004 classes with a long-tailed distribution. Through extensive
studies, we demonstrate that state-of-the-art methods used for long-tailed
image recognition do not perform well in the video domain due to the additional
temporal dimension in video data. This motivates us to propose FrameStack, a
simple yet effective method for long-tailed video recognition task. In
particular, FrameStack performs sampling at the frame-level in order to balance
class distributions, and the sampling ratio is dynamically determined using
knowledge derived from the network during training. Experimental results
demonstrate that FrameStack can improve classification performance without
sacrificing overall accuracy.
- Abstract(参考訳): 実世界のラベル分布はしばしばロングテールで不均衡であり、支配的なラベルに偏ったモデルをもたらす。
ロングテール認識は画像分類タスクで広範囲に研究されてきたが、ビデオ領域では限定的な努力がなされている。
本稿では,大規模長編ビデオ認識データセットであるVideoLTについて,実世界のビデオ認識へのステップとして紹介する。
videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。
映像データに時間的次元が付加されるため,ロングテール画像認識における最先端の手法は映像領域ではうまく機能しないことを示す。
これにより、長いビデオ認識タスクのためのシンプルで効果的な方法であるFrameStackを提案することができる。
特に、framestackはクラス分布のバランスをとるためにフレームレベルでサンプリングを行い、トレーニング中にネットワークから得られた知識を用いてサンプリング比率を動的に決定する。
実験の結果, framestackは全体の精度を犠牲にすることなく, 分類性能を向上させることができた。
関連論文リスト
- VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。