論文の概要: Self-Supervised Video Representation Learning with Meta-Contrastive
Network
- arxiv url: http://arxiv.org/abs/2108.08426v2
- Date: Mon, 23 Aug 2021 16:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 11:28:01.568384
- Title: Self-Supervised Video Representation Learning with Meta-Contrastive
Network
- Title(参考訳): メタコントラストネットワークを用いた自己教師付きビデオ表現学習
- Authors: Yuanze Lin, Xun Guo, Yan Lu
- Abstract要約: 自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 10.768575680990415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has been successfully applied to pre-train video
representations, which aims at efficient adaptation from pre-training domain to
downstream tasks. Existing approaches merely leverage contrastive loss to learn
instance-level discrimination. However, lack of category information will lead
to hard-positive problem that constrains the generalization ability of this
kind of methods. We find that the multi-task process of meta learning can
provide a solution to this problem. In this paper, we propose a
Meta-Contrastive Network (MCN), which combines the contrastive learning and
meta learning, to enhance the learning ability of existing self-supervised
approaches. Our method contains two training stages based on model-agnostic
meta learning (MAML), each of which consists of a contrastive branch and a meta
branch. Extensive evaluations demonstrate the effectiveness of our method. For
two downstream tasks, i.e., video action recognition and video retrieval, MCN
outperforms state-of-the-art approaches on UCF101 and HMDB51 datasets. To be
more specific, with R(2+1)D backbone, MCN achieves Top-1 accuracies of 84.8%
and 54.5% for video action recognition, as well as 52.5% and 23.7% for video
retrieval.
- Abstract(参考訳): 自己教師付き学習は、事前学習領域から下流タスクへの効果的な適応を目的とした、事前訓練ビデオ表現に成功している。
既存のアプローチは、インスタンスレベルの識別を学ぶために対照的な損失を利用するだけです。
しかし、カテゴリ情報の欠如は、この種の手法の一般化能力を制約する強正の問題につながる。
メタ学習のマルチタスクプロセスは、この問題に対する解決策を提供することができる。
本稿では,既存の自己教師ありアプローチの学習能力を高めるために,コントラスト学習とメタ学習を組み合わせたメタコントラストネットワーク(mcn)を提案する。
本手法は,モデルに依存しないメタラーニング(MAML)に基づく2つの訓練段階を含む。
本手法の有効性を広範囲に評価した。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNはUCF101およびHMDB51データセットに対する最先端のアプローチより優れている。
より具体的に言うと、r(2+1)dバックボーンでは、ビデオアクション認識では84.8%、54.5%、ビデオ検索では52.5%、23.7%のtop-1アキュラティを達成している。
関連論文リスト
- VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Learning to Learn with Indispensable Connections [6.040904021861969]
本稿では,メタ-LTHと呼ばれるメタ-LTHと呼ばれるメタ-ラーニング手法を提案する。
本手法は,オムニグロットデータセットの分類精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:53:13Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Lessons from Chasing Few-Shot Learning Benchmarks: Rethinking the
Evaluation of Meta-Learning Methods [9.821362920940631]
メタラーニングのための簡単なベースライン、FIX-MLを紹介します。
メタラーニングの2つの可能性を探る:(i)トレーニングセット(in-distriion)を生成する同じタスク分布に一般化する手法を開発する、(ii)新しい未確認タスク分布(out-of-distriion)に一般化する手法を開発する。
本研究は,この領域の進歩を推論するためには,メタラーニングの目標を明確に説明し,より適切な評価戦略を開発する必要があることを強調した。
論文 参考訳(メタデータ) (2021-02-23T05:34:30Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning [79.25478727351604]
評価基準に基づいて,分類済みモデル全体に対するメタラーニング(メタラーニング)を提案する。
我々は,この単純な手法が標準ベンチマークにおける最先端手法との競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2020-03-09T20:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。