論文の概要: Improving Visual Representation Learning through Perceptual
Understanding
- arxiv url: http://arxiv.org/abs/2212.14504v2
- Date: Tue, 28 Mar 2023 13:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:59:13.298712
- Title: Improving Visual Representation Learning through Perceptual
Understanding
- Title(参考訳): 知覚理解による視覚表現学習の改善
- Authors: Samyakh Tukra, Frederick Hoffman, Ken Chatfield
- Abstract要約: 本稿では,より高度なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習された表現を改善するマスク付きオートエンコーダ(MAE)の拡張を提案する。
我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%の精度を達成し、他の下流タスクも同様の結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an extension to masked autoencoders (MAE) which improves on the
representations learnt by the model by explicitly encouraging the learning of
higher scene-level features. We do this by: (i) the introduction of a
perceptual similarity term between generated and real images (ii) incorporating
several techniques from the adversarial training literature including
multi-scale training and adaptive discriminator augmentation. The combination
of these results in not only better pixel reconstruction but also
representations which appear to capture better higher-level details within
images. More consequentially, we show how our method, Perceptual MAE, leads to
better performance when used for downstream tasks outperforming previous
methods. We achieve 78.1% top-1 accuracy linear probing on ImageNet-1K and up
to 88.1% when fine-tuning, with similar results for other downstream tasks, all
without use of additional pre-trained models or data.
- Abstract(参考訳): 本稿では,より高次なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習される表現を改良したマスキングオートエンコーダ(mae)の拡張を提案する。
私たちはこうしています
(i)生成画像と実画像との知覚的類似性用語の導入
(II) マルチスケールトレーニングや適応型識別器増強を含む, 対人訓練文献からのいくつかのテクニックを取り入れた。
これらの組み合わせにより、ピクセル再構成だけでなく、画像内のより高レベルな詳細をキャプチャーする表現も改善される。
さらに,提案手法である知覚的maeが,従来の手法よりも下流タスクの方が優れた性能をもたらすことを示す。
我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%まで到達し、他の下流タスクでも同様の結果が得られる。
関連論文リスト
- Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - SAGE: Saliency-Guided Mixup with Optimal Rearrangements [22.112463794733188]
最適リアレンジメント(SAGE)を用いたサリエンシ誘導混合
SAGEは、ビジュアル・サリエンシをガイダンスとして、イメージペアを並べ替え、混合することで、新しいトレーニング例を作成する。
我々は, CIFAR-10 と CIFAR-100 について, SAGE がより効率的でありながら, より優れた性能と同等の性能を達成できることを実証した。
論文 参考訳(メタデータ) (2022-10-31T19:45:21Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Augmentation Learning for Semi-Supervised Classification [13.519613713213277]
本稿では,特定のデータセットに対して最も効果的なデータ拡張ポリシーを自動選択する半教師付き学習手法を提案する。
ImageNet以外のデータセットへの拡張にポリシー学習をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:51Z) - Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2022-05-27T17:59:36Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Differentiable Augmentation for Data-Efficient GAN Training [48.920992130257595]
DiffAugmentは,実検体と偽検体の両方に様々な種類の微分可能拡張を付与することにより,GANのデータ効率を向上させる簡易な手法である。
本手法は,既存の移動学習アルゴリズムと同等でありながら,事前学習することなく,100個の画像のみを用いて高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T17:59:01Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。