論文の概要: Use Your Head: Improving Long-Tail Video Recognition
- arxiv url: http://arxiv.org/abs/2304.01143v1
- Date: Mon, 3 Apr 2023 17:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:25:34.832341
- Title: Use Your Head: Improving Long-Tail Video Recognition
- Title(参考訳): 頭を使う: 長距離ビデオ認識を改良
- Authors: Toby Perrett, Saptarshi Sinha, Tilo Burghardt, Majid Mirmehdi, Dima
Damen
- Abstract要約: 自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
本稿では,SSv2 と VideoLT の2つのデータセットからサブセットをサンプリングすることで,長距離認識をよりよく評価するビデオベンチマークを提案する。
- 参考スコア(独自算出の注目度): 28.506807977493434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an investigation into long-tail video recognition. We
demonstrate that, unlike naturally-collected video datasets and existing
long-tail image benchmarks, current video benchmarks fall short on multiple
long-tailed properties. Most critically, they lack few-shot classes in their
tails. In response, we propose new video benchmarks that better assess
long-tail recognition, by sampling subsets from two datasets: SSv2 and VideoLT.
We then propose a method, Long-Tail Mixed Reconstruction, which reduces
overfitting to instances from few-shot classes by reconstructing them as
weighted combinations of samples from head classes. LMR then employs label
mixing to learn robust decision boundaries. It achieves state-of-the-art
average class accuracy on EPIC-KITCHENS and the proposed SSv2-LT and
VideoLT-LT. Benchmarks and code at: tobyperrett.github.io/lmr
- Abstract(参考訳): 本稿では,ロングテールビデオ認識について検討する。
自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
一番重要なのは、尻尾にショットのクラスがほとんどないことです。
そこで本研究では,ssv2とvideoltの2つのデータセットからサブセットをサンプリングすることで,ロングテール認識を評価する新しいビデオベンチマークを提案する。
そこで本研究では,ヘッドクラスからサンプルを重み付けした組み合わせとして再構成することで,少数クラスからのインスタンスへの過度適合を低減できるLong-Tail Mixed Reconstructionを提案する。
lmrはラベル混合を用いてロバストな決定境界を学習する。
EPIC-KITCHENS と提案した SSv2-LT と VideoLT-LT で最先端の平均クラス精度を実現する。
ベンチマークとコード: tobyperrett.github.io/lmr
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - VideoLT: Large-scale Long-tailed Video Recognition [100.15503884988736]
大規模な長尾ビデオ認識データセットであるVideoLTを紹介します。
videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。
長尾ビデオ認識タスクの簡便かつ効果的な方法であるFrameStackを提案する。
論文 参考訳(メタデータ) (2021-05-06T13:47:44Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Exploring Long Tail Visual Relationship Recognition with Large
Vocabulary [40.51076584921913]
我々は,Long-Tail Visual Relationship Recognition(LTVRR)の課題に関する最初の大規模研究を行っている。
LTVRRは、ロングテールから得られる構造化された視覚的関係の学習を改善することを目的としている。
VG8K-LTとGQA-LTという2つのLTVRR関連ベンチマークを導入する。
論文 参考訳(メタデータ) (2020-03-25T19:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。