論文の概要: Use Your Head: Improving Long-Tail Video Recognition
- arxiv url: http://arxiv.org/abs/2304.01143v1
- Date: Mon, 3 Apr 2023 17:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:25:34.832341
- Title: Use Your Head: Improving Long-Tail Video Recognition
- Title(参考訳): 頭を使う: 長距離ビデオ認識を改良
- Authors: Toby Perrett, Saptarshi Sinha, Tilo Burghardt, Majid Mirmehdi, Dima
Damen
- Abstract要約: 自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
本稿では,SSv2 と VideoLT の2つのデータセットからサブセットをサンプリングすることで,長距離認識をよりよく評価するビデオベンチマークを提案する。
- 参考スコア(独自算出の注目度): 28.506807977493434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an investigation into long-tail video recognition. We
demonstrate that, unlike naturally-collected video datasets and existing
long-tail image benchmarks, current video benchmarks fall short on multiple
long-tailed properties. Most critically, they lack few-shot classes in their
tails. In response, we propose new video benchmarks that better assess
long-tail recognition, by sampling subsets from two datasets: SSv2 and VideoLT.
We then propose a method, Long-Tail Mixed Reconstruction, which reduces
overfitting to instances from few-shot classes by reconstructing them as
weighted combinations of samples from head classes. LMR then employs label
mixing to learn robust decision boundaries. It achieves state-of-the-art
average class accuracy on EPIC-KITCHENS and the proposed SSv2-LT and
VideoLT-LT. Benchmarks and code at: tobyperrett.github.io/lmr
- Abstract(参考訳): 本稿では,ロングテールビデオ認識について検討する。
自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
一番重要なのは、尻尾にショットのクラスがほとんどないことです。
そこで本研究では,ssv2とvideoltの2つのデータセットからサブセットをサンプリングすることで,ロングテール認識を評価する新しいビデオベンチマークを提案する。
そこで本研究では,ヘッドクラスからサンプルを重み付けした組み合わせとして再構成することで,少数クラスからのインスタンスへの過度適合を低減できるLong-Tail Mixed Reconstructionを提案する。
lmrはラベル混合を用いてロバストな決定境界を学習する。
EPIC-KITCHENS と提案した SSv2-LT と VideoLT-LT で最先端の平均クラス精度を実現する。
ベンチマークとコード: tobyperrett.github.io/lmr
関連論文リスト
- ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - VideoLT: Large-scale Long-tailed Video Recognition [100.15503884988736]
大規模な長尾ビデオ認識データセットであるVideoLTを紹介します。
videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。
長尾ビデオ認識タスクの簡便かつ効果的な方法であるFrameStackを提案する。
論文 参考訳(メタデータ) (2021-05-06T13:47:44Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Exploring Long Tail Visual Relationship Recognition with Large
Vocabulary [40.51076584921913]
我々は,Long-Tail Visual Relationship Recognition(LTVRR)の課題に関する最初の大規模研究を行っている。
LTVRRは、ロングテールから得られる構造化された視覚的関係の学習を改善することを目的としている。
VG8K-LTとGQA-LTという2つのLTVRR関連ベンチマークを導入する。
論文 参考訳(メタデータ) (2020-03-25T19:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。