論文の概要: Viewmaker Networks: Learning Views for Unsupervised Representation
Learning
- arxiv url: http://arxiv.org/abs/2010.07432v2
- Date: Mon, 29 Mar 2021 06:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:26:47.439270
- Title: Viewmaker Networks: Learning Views for Unsupervised Representation
Learning
- Title(参考訳): viewmaker networks: 教師なし表現学習のための学習ビュー
- Authors: Alex Tamkin, Mike Wu, Noah Goodman
- Abstract要約: ビューメーカーネットワークは、与えられた入力から有用なビューを生成するために学習する生成モデルである。
音声記録とウェアラブルセンサデータによるベースライン向上は,我々の学習結果より有意に優れていた。
これらの結果から,ビューメーカはより汎用的な表現学習アルゴリズムへの道筋を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.87506675651689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent methods for unsupervised representation learning train models to
be invariant to different "views," or distorted versions of an input. However,
designing these views requires considerable trial and error by human experts,
hindering widespread adoption of unsupervised representation learning methods
across domains and modalities. To address this, we propose viewmaker networks:
generative models that learn to produce useful views from a given input.
Viewmakers are stochastic bounded adversaries: they produce views by generating
and then adding an $\ell_p$-bounded perturbation to the input, and are trained
adversarially with respect to the main encoder network. Remarkably, when
pretraining on CIFAR-10, our learned views enable comparable transfer accuracy
to the well-tuned SimCLR augmentations -- despite not including transformations
like cropping or color jitter. Furthermore, our learned views significantly
outperform baseline augmentations on speech recordings (+9% points, on average)
and wearable sensor data (+17% points). Viewmakers can also be combined with
handcrafted views: they improve robustness to common image corruptions and can
increase transfer performance in cases where handcrafted views are less
explored. These results suggest that viewmakers may provide a path towards more
general representation learning algorithms -- reducing the domain expertise and
effort needed to pretrain on a much wider set of domains. Code is available at
https://github.com/alextamkin/viewmaker.
- Abstract(参考訳): 教師なし表現学習用トレインモデルのための最近の多くの手法は、入力の異なる「ビュー」や歪んだバージョンに不変である。
しかし、これらの視点を設計するには、専門家によるかなりの試行錯誤が必要であり、ドメインやモダリティをまたいだ教師なし表現学習手法の普及を妨げている。
そこで我々は,与えられた入力から有用なビューを生成するための生成モデルであるビューメーカネットワークを提案する。
ビューメーカーは確率的バウンダリを持つ敵であり、入力に$\ell_p$-bounded perturbationを生成してビューを生成し、メインエンコーダネットワークに対して逆向きにトレーニングされる。
Remarkably, when pretraining on CIFAR-10, our learned views enable comparable transfer accuracy to the well-tuned SimCLR augmentations -- despite not including transformations like cropping or color jitter. Furthermore, our learned views significantly outperform baseline augmentations on speech recordings (+9% points, on average) and wearable sensor data (+17% points). Viewmakers can also be combined with handcrafted views: they improve robustness to common image corruptions and can increase transfer performance in cases where handcrafted views are less explored. These results suggest that viewmakers may provide a path towards more general representation learning algorithms -- reducing the domain expertise and effort needed to pretrain on a much wider set of domains.
コードはhttps://github.com/alextamkin/viewmakerで入手できる。
関連論文リスト
- Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Multispectral Contrastive Learning with Viewmaker Networks [8.635434871127512]
さまざまなリモートセンシングデータセットにコントラスト学習アプローチを適用することに注力する。
また,ビューメーカネットワークは,広範囲なドメイン知識や試行錯誤を必要とせずに,この設定でビューを作成することを約束していることを示す。
論文 参考訳(メタデータ) (2023-02-11T18:44:12Z) - ExAgt: Expert-guided Augmentation for Representation Learning of Traffic
Scenarios [8.879790406465558]
本稿では,交通シナリオの拡張のためのエキスパート知識を含む新しい手法であるExAgtを提案する。
ExAgt法は2つの最先端のクロスビュー予測法に適用される。
その結果,ExAgt法は,標準拡張法よりも表現学習を改善することがわかった。
論文 参考訳(メタデータ) (2022-07-18T13:55:48Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。