論文の概要: Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation
- arxiv url: http://arxiv.org/abs/2007.04755v2
- Date: Wed, 13 Oct 2021 13:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:42:40.229494
- Title: Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation
- Title(参考訳): ビデオ検索と特徴生成を用いた一般化Few-Shotビデオ分類
- Authors: Yongqin Xian, Bruno Korbar, Matthijs Douze, Lorenzo Torresani, Bernt
Schiele, Zeynep Akata
- Abstract要約: 従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 132.82884193921535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning aims to recognize novel classes from a few examples.
Although significant progress has been made in the image domain, few-shot video
classification is relatively unexplored. We argue that previous methods
underestimate the importance of video feature learning and propose to learn
spatiotemporal features using a 3D CNN. Proposing a two-stage approach that
learns video features on base classes followed by fine-tuning the classifiers
on novel classes, we show that this simple baseline approach outperforms prior
few-shot video classification methods by over 20 points on existing benchmarks.
To circumvent the need of labeled examples, we present two novel approaches
that yield further improvement. First, we leverage tag-labeled videos from a
large dataset using tag retrieval followed by selecting the best clips with
visual similarities. Second, we learn generative adversarial networks that
generate video features of novel classes from their semantic embeddings.
Moreover, we find existing benchmarks are limited because they only focus on 5
novel classes in each testing episode and introduce more realistic benchmarks
by involving more novel classes, i.e. few-shot learning, as well as a mixture
of novel and base classes, i.e. generalized few-shot learning. The experimental
results show that our retrieval and feature generation approach significantly
outperform the baseline approach on the new benchmarks.
- Abstract(参考訳): わずかながらの学習は、いくつかの例から新しいクラスを認識することを目的としている。
画像領域では大きな進歩があったが、ビデオの分類は比較的未調査である。
従来の手法は映像特徴学習の重要性を過小評価し、3次元CNNを用いて時空間特徴を学習することを提案する。
ベースクラス上でビデオの特徴を学習する2段階のアプローチと、新しいクラスで分類器を微調整する手法を提案することで、この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上、以前の数ショットビデオ分類方法よりも優れていることを示す。
ラベル付き例の必要性を回避するために,さらなる改善をもたらす2つの新しいアプローチを提案する。
まず,タグ検索を用いた大規模データセットからのタグラベル付きビデオから,視覚的類似性のある最適なクリップを選択する。
第2に,意味的埋め込みから新たなクラスのビデオ特徴を生成する生成型adversarial networkを学習する。
さらに,各テストエピソードにおける5つの新しいクラスのみに着目し,より新しいクラス,すなわち数発学習と,新しいクラスとベースクラス,すなわち一般化された数発学習の混合を含むことで,より現実的なベンチマークを導入するため,既存のベンチマークは限られている。
実験の結果,新しいベンチマークでは検索と特徴生成のアプローチがベースラインアプローチを大きく上回っていることがわかった。
関連論文リスト
- Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - A Simple Approach to Adversarial Robustness in Few-shot Image
Classification [20.889464448762176]
単純な移動学習に基づくアプローチは、逆向きに頑健な数ショット分類器を訓練するのに有効であることを示す。
また,少数ショットカテゴリのセントロイドをベースクラスに校正する手法を提案する。
論文 参考訳(メタデータ) (2022-04-11T22:46:41Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - When Video Classification Meets Incremental Classes [12.322018693269952]
本稿では,忘れを忘れるテキスト触媒の課題に対処する枠組みを提案する。
まず, 蒸留前の粒度・時間的知識を緩和する。
第2に,古いクラスとキーフレームの代表的なビデオインスタンスを,厳密なストレージ予算の下で選択・保存する,二重例選択手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T06:12:33Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Frustratingly Simple Few-Shot Object Detection [98.42824677627581]
希少なクラスにおける既存検出器の最後の層のみを微調整することは、数発の物体検出タスクに不可欠である。
このような単純なアプローチは、現在のベンチマークで約220ポイントのメタ学習方法より優れている。
論文 参考訳(メタデータ) (2020-03-16T00:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。