論文の概要: Learning Spatiotemporal Features via Video and Text Pair Discrimination
- arxiv url: http://arxiv.org/abs/2001.05691v3
- Date: Thu, 28 Jan 2021 01:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:22:18.573335
- Title: Learning Spatiotemporal Features via Video and Text Pair Discrimination
- Title(参考訳): ビデオとテキストペア識別による時空間特徴の学習
- Authors: Tianhao Li, Limin Wang
- Abstract要約: クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
- 参考スコア(独自算出の注目度): 30.64670449131973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video representations heavily rely on learning from manually
annotated video datasets which are time-consuming and expensive to acquire. We
observe videos are naturally accompanied by abundant text information such as
YouTube titles and Instagram captions. In this paper, we leverage this
visual-textual connection to learn spatiotemporal features in an efficient
weakly-supervised manner. We present a general cross-modal pair discrimination
(CPD) framework to capture this correlation between a video and its associated
text. Specifically, we adopt noise-contrastive estimation to tackle the
computational issue imposed by the huge amount of pair instance classes and
design a practical curriculum learning strategy. We train our CPD models on
both standard video dataset (Kinetics-210k) and uncurated web video dataset
(Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning,
the learnt models obtain competitive results for action classification on
Kinetics under the linear classification protocol. Moreover, our visual model
provides an effective initialization to fine-tune on downstream tasks, which
yields a remarkable performance gain for action recognition on UCF101 and
HMDB51, compared with the existing state-of-the-art self-supervised training
methods. In addition, our CPD model yields a new state of the art for zero-shot
action recognition on UCF101 by directly utilizing the learnt visual-textual
embeddings. The code will be made available at
https://github.com/MCG-NJU/CPD-Video.
- Abstract(参考訳): 現在のビデオ表現は、手動で注釈付けされたビデオデータセットからの学習に大きく依存している。
ビデオには、YouTubeのタイトルやInstagramのキャプションなどの豊富なテキスト情報が添付されている。
本稿では,この視覚的・テクスチャ的接続を利用して,効率的な弱教師付き手法で時空間的特徴を学習する。
本稿では,ビデオとその関連テキスト間の相関を捉えるために,cpd(general cross-modal pair discrimination)フレームワークを提案する。
具体的には,大量のペアインスタンスクラスによって課される計算問題に対処し,実用的なカリキュラム学習戦略を設計するために,ノイズコントラスト推定を採用する。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(Instagram-300k)でCDDモデルをトレーニングし、その効果を実証する。
さらに微調整を行わずに、学習者は線形分類プロトコルの下での運動分類の競合結果を得る。
さらに,我々の視覚モデルは,既存の最先端の自己教師型訓練手法と比較して,UCF101とHMDB51の動作認識において顕著な性能向上をもたらす,下流タスクの微調整に有効な初期化を提供する。
さらに,本モデルでは,学習した視覚テキストの埋め込みを直接利用することにより,UCF101上でのゼロショット動作認識の新たな状態が得られる。
コードはhttps://github.com/MCG-NJU/CPD-Videoで公開される。
関連論文リスト
- Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Temporally Coherent Embeddings for Self-Supervised Video Representation
Learning [2.216657815393579]
本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法は,非ラベル付きビデオデータの固有構造を利用して,埋め込み空間における時間的コヒーレンシを明示的に強制する。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
論文 参考訳(メタデータ) (2020-03-21T12:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。