論文の概要: ParamCrop: Parametric Cubic Cropping for Video Contrastive Learning
- arxiv url: http://arxiv.org/abs/2108.10501v1
- Date: Tue, 24 Aug 2021 03:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:20:28.819341
- Title: ParamCrop: Parametric Cubic Cropping for Video Contrastive Learning
- Title(参考訳): ParamCrop:ビデオコントラスト学習のためのパラメトリックキュービッククロップ
- Authors: Zhiwu Qing, Ziyuan Huang, Shiwei Zhang, Mingqian Tang, Changxin Gao,
Marcelo H. Ang Jr, Rong Ji, Nong Sang
- Abstract要約: ビデオコントラスト学習のためのパラメトリック立方根刈り作業ParamCropを提案する。
ParamCropは、対向目的を用いてビデオバックボーンと同時に訓練され、データから最適な収穫戦略を学ぶ。
2つの拡張ビュー間の中心距離とIoUは、ParamCropによって適応的に制御されている。
- 参考スコア(独自算出の注目度): 35.577788907544964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The central idea of contrastive learning is to discriminate between different
instances and force different views of the same instance to share the same
representation. To avoid trivial solutions, augmentation plays an important
role in generating different views, among which random cropping is shown to be
effective for the model to learn a strong and generalized representation.
Commonly used random crop operation keeps the difference between two views
statistically consistent along the training process. In this work, we challenge
this convention by showing that adaptively controlling the disparity between
two augmented views along the training process enhances the quality of the
learnt representation. Specifically, we present a parametric cubic cropping
operation, ParamCrop, for video contrastive learning, which automatically crops
a 3D cubic from the video by differentiable 3D affine transformations.
ParamCrop is trained simultaneously with the video backbone using an
adversarial objective and learns an optimal cropping strategy from the data.
The visualizations show that the center distance and the IoU between two
augmented views are adaptively controlled by ParamCrop and the learned change
in the disparity along the training process is beneficial to learning a strong
representation. Extensive ablation studies demonstrate the effectiveness of the
proposed ParamCrop on multiple contrastive learning frameworks and video
backbones. With ParamCrop, we improve the state-of-the-art performance on both
HMDB51 and UCF101 datasets.
- Abstract(参考訳): コントラスト学習の中心的な考え方は、異なるインスタンスを区別し、同じインスタンスの異なるビューを同じ表現を共有するように強制することである。
自明な解を避けるために、拡張は異なるビューを生成する上で重要な役割を担い、その中ではランダムなトリミングがモデルが強く一般化された表現を学ぶのに有効であることが示される。
一般的なランダムな作物操作は、トレーニングプロセスに沿って統計的に一致した2つのビューの違いを保っている。
本研究では,学習者表現の質を高めるために,学習過程に沿った2つの拡張ビュー間の差異を適応的に制御する手法を提案する。
具体的には、3次元アフィン変換によりビデオから3次元立方体を自動的に収穫する、ビデオコントラスト学習のためのパラメトリック立方体収穫操作であるParamCropを提案する。
ParamCropは、対向目的を用いてビデオバックボーンと同時に訓練され、データから最適な収穫戦略を学ぶ。
2つの拡張ビュー間の中心距離とIoUは、ParamCropによって適応的に制御され、トレーニング過程に沿った相違点の学習は、強い表現を学ぶ上で有益であることを示す。
広範囲にわたるアブレーション研究は、複数のコントラスト学習フレームワークとビデオバックボーンに対するParamCropの有効性を示す。
ParamCropでは,HMDB51およびUCF101データセットの最先端性能を改善した。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。