論文の概要: Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications
- arxiv url: http://arxiv.org/abs/2003.01455v4
- Date: Sat, 20 Jun 2020 08:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:51:17.128868
- Title: Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications
- Title(参考訳): ゼロショットビデオ分類の再考: 現実的応用のためのエンドツーエンドトレーニング
- Authors: Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof
Chalupka
- Abstract要約: ゼロショット学習(ZSL)はモデルを一度トレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
- 参考スコア(独自算出の注目度): 26.955001807330497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trained on large datasets, deep learning (DL) can accurately classify videos
into hundreds of diverse classes. However, video data is expensive to annotate.
Zero-shot learning (ZSL) proposes one solution to this problem. ZSL trains a
model once, and generalizes to new tasks whose classes are not present in the
training dataset. We propose the first end-to-end algorithm for ZSL in video
classification. Our training procedure builds on insights from recent video
classification literature and uses a trainable 3D CNN to learn the visual
features. This is in contrast to previous video ZSL methods, which use
pretrained feature extractors. We also extend the current benchmarking
paradigm: Previous techniques aim to make the test task unknown at training
time but fall short of this goal. We encourage domain shift across training and
test data and disallow tailoring a ZSL model to a specific test dataset. We
outperform the state-of-the-art by a wide margin. Our code, evaluation
procedure and model weights are available at
github.com/bbrattoli/ZeroShotVideoClassification.
- Abstract(参考訳): 大規模なデータセットでトレーニングされたdeep learning(dl)は、ビデオを正確に数百のクラスに分類することができる。
しかし、ビデオデータは注釈をつけるのに費用がかかる。
ゼロショット学習(ZSL)はこの問題に対する一つの解決策を提案する。
ZSLは一度モデルをトレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
これは、事前訓練された特徴抽出器を使用する以前のビデオZSL法とは対照的である。
以前のテクニックは、トレーニング時にテストタスクを未知にすることを目的としていますが、この目標には達していません。
トレーニングとテストデータ間のドメインシフトを奨励し、特定のテストデータセットに対するZSLモデルの調整を禁止します。
我々は最先端技術を大きく上回っている。
我々のコード、評価手順、モデルウェイトはgithub.com/bbrattoli/ZeroShotVideoClassificationで利用可能です。
関連論文リスト
- Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Self-Supervised Video Similarity Learning [35.512588398849395]
S$2$VSは、自己監督を伴うビデオ類似性学習手法である。
すべてのタスクで最先端のパフォーマンスを実現する単一の普遍モデルを学ぶ。
論文 参考訳(メタデータ) (2023-04-06T21:15:27Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dynamic VAEs with Generative Replay for Continual Zero-shot Learning [1.90365714903665]
本稿では,タスクごとにサイズが拡大する新しいゼロショット学習(DVGR-CZSL)モデルを提案する。
ZSL(Zero-Shot Learning)を用いた逐次学習において,本手法が優れていることを示す。
論文 参考訳(メタデータ) (2021-04-26T10:56:43Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Generative Replay-based Continual Zero-Shot Learning [7.909034037183046]
再生再生型連続ZSL(GRCZSL)を開発した。
提案手法は従来のZSLにストリーミングデータから学び、以前のタスクの経験を忘れることなく新しい知識を得ることができる。
GRZSL法は,実世界の問題設定をシミュレートした連続学習の単一ヘッド設定のために開発された。
論文 参考訳(メタデータ) (2021-01-22T00:03:34Z) - Curriculum Learning for Recurrent Video Object Segmentation [2.3376061255029064]
本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
論文 参考訳(メタデータ) (2020-08-15T10:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。