論文の概要: On Compositions of Transformations in Contrastive Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2003.04298v3
- Date: Wed, 27 Oct 2021 12:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:10:07.131569
- Title: On Compositions of Transformations in Contrastive Self-Supervised
Learning
- Title(参考訳): コントラスト型自己監督学習における変換の構成について
- Authors: Mandela Patrick, Yuki M. Asano, Polina Kuznetsova, Ruth Fong, Jo\~ao
F. Henriques, Geoffrey Zweig, Andrea Vedaldi
- Abstract要約: 本稿では,コントラスト学習をより広範な変換集合に一般化する。
特定の変換に不変であり、他の変換に特有であることは、効果的なビデオ表現の学習に不可欠である。
- 参考スコア(独自算出の注目度): 66.15514035861048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the image domain, excellent representations can be learned by inducing
invariance to content-preserving transformations via noise contrastive
learning. In this paper, we generalize contrastive learning to a wider set of
transformations, and their compositions, for which either invariance or
distinctiveness is sought. We show that it is not immediately obvious how
existing methods such as SimCLR can be extended to do so. Instead, we introduce
a number of formal requirements that all contrastive formulations must satisfy,
and propose a practical construction which satisfies these requirements. In
order to maximise the reach of this analysis, we express all components of
noise contrastive formulations as the choice of certain generalized
transformations of the data (GDTs), including data sampling. We then consider
videos as an example of data in which a large variety of transformations are
applicable, accounting for the extra modalities -- for which we analyze audio
and text -- and the dimension of time. We find that being invariant to certain
transformations and distinctive to others is critical to learning effective
video representations, improving the state-of-the-art for multiple benchmarks
by a large margin, and even surpassing supervised pretraining.
- Abstract(参考訳): 画像領域では、ノイズコントラスト学習によるコンテンツ保存変換への不変性を誘導することにより、優れた表現を学習することができる。
本稿では, コントラスト学習をより広い変換集合とそれらの構成に一般化し, 不変性や識別性を求める。
SimCLRのような既存のメソッドをどのように拡張できるかは、すぐには明らかでない。
代わりに、全ての対照的な定式化が満たさなければならない多くの形式的要件を導入し、これらの要件を満たす実用的な構成を提案する。
この分析の到達範囲を最大化するために,データサンプリングを含むデータ(GDT)の特定の一般化変換の選択として,ノイズコントラッシブな定式化のすべての成分を表現した。
次に、音声とテキストを解析する余分なモダリティと時間次元を考慮し、さまざまな変換が適用可能なデータの例としてビデオを考慮する。
特定の変換に不変であり、他に特有のことは、効果的なビデオ表現を学習し、複数のベンチマークの最先端を大きなマージンで改善し、教師付き事前トレーニングを超越する上で重要である。
関連論文リスト
- Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - In-Context Symmetries: Self-Supervised Learning through Contextual World Models [41.61360016455319]
我々は、文脈に注意を払って、異なる変換に不変あるいは同変に適応できる一般的な表現を学ぶことを提案する。
提案するアルゴリズムであるContextual Self-Supervised Learning (ContextSSL)は,すべての変換に等しくなることを学習する。
論文 参考訳(メタデータ) (2024-05-28T14:03:52Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - Data augmentation with mixtures of max-entropy transformations for
filling-level classification [88.14088768857242]
本稿では,コンテンツレベルの分類作業のための基本データ拡張スキームを用いて,テスト時間データにおける分散シフトの問題に対処する。
このような原理的な拡張スキームは,伝達学習を利用した現在のアプローチを置き換えたり,伝達学習と組み合わせて性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-08T11:41:38Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Self-Supervised Learning with Data Augmentations Provably Isolates
Content from Style [32.20957709045773]
我々は拡張過程を潜在変数モデルとして定式化する。
本研究では,2対の観測結果に基づいて,潜在表現の識別可能性について検討した。
Causal3DIdentは、因果関係が豊富な高次元、視覚的に複雑な画像のデータセットである。
論文 参考訳(メタデータ) (2021-06-08T18:18:09Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。