論文の概要: Energy-Inspired Self-Supervised Pretraining for Vision Models
- arxiv url: http://arxiv.org/abs/2302.01384v1
- Date: Thu, 2 Feb 2023 19:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:25:20.151274
- Title: Energy-Inspired Self-Supervised Pretraining for Vision Models
- Title(参考訳): ビジョンモデルのためのエネルギー駆動型自己監督型事前訓練
- Authors: Ze Wang, Jiang Wang, Zicheng Liu, and Qiang Qiu
- Abstract要約: エネルギーベースモデル(EBM)にインスパイアされた自己教師型ビジョンモデル事前学習フレームワークを導入する。
提案手法では,1つのネットワークの前方・後方通過としてエネルギー推定とデータ復元をモデル化する。
提案手法は,学習のエポックを極端に少なくして,同等で,さらに優れた性能を提供できることを示す。
- 参考スコア(独自算出の注目度): 36.70550531181131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the fact that forward and backward passes of a deep network
naturally form symmetric mappings between input and output representations, we
introduce a simple yet effective self-supervised vision model pretraining
framework inspired by energy-based models (EBMs). In the proposed framework, we
model energy estimation and data restoration as the forward and backward passes
of a single network without any auxiliary components, e.g., an extra decoder.
For the forward pass, we fit a network to an energy function that assigns low
energy scores to samples that belong to an unlabeled dataset, and high energy
otherwise. For the backward pass, we restore data from corrupted versions
iteratively using gradient-based optimization along the direction of energy
minimization. In this way, we naturally fold the encoder-decoder architecture
widely used in masked image modeling into the forward and backward passes of a
single vision model. Thus, our framework now accepts a wide range of pretext
tasks with different data corruption methods, and permits models to be
pretrained from masked image modeling, patch sorting, and image restoration,
including super-resolution, denoising, and colorization. We support our
findings with extensive experiments, and show the proposed method delivers
comparable and even better performance with remarkably fewer epochs of training
compared to the state-of-the-art self-supervised vision model pretraining
methods. Our findings shed light on further exploring self-supervised vision
model pretraining and pretext tasks beyond masked image modeling.
- Abstract(参考訳): 入力表現と出力表現の対称写像は,深層ネットワークの前方・後方通過が自然に形成するという事実に触発され,エネルギーベースモデル(EBM)にインスパイアされた,シンプルで効果的な自己監督型視覚モデル事前学習フレームワークを導入する。
提案フレームワークでは, 余剰デコーダなどの補助的コンポーネントを使わずに, 単一のネットワークの前方・後方通過として, エネルギー推定とデータ復元をモデル化する。
フォワードパスでは、未ラベルのデータセットに属するサンプルに低エネルギースコアを割り当てるエネルギー関数にネットワークを適合させ、それ以外は高エネルギーを割り当てる。
後方通過のために,エネルギー最小化の方向に沿って勾配に基づく最適化を用いて,劣化したバージョンからデータを反復的に復元する。
このようにして、マスク画像モデリングで広く使用されるエンコーダ・デコーダアーキテクチャを、単一のビジョンモデルの前方および後方のパスに自然に折り畳む。
そこで,本フレームワークでは,様々なデータ汚濁手法を用いて,さまざまなプリテキストタスクを受け付け,マスク付き画像モデリング,パッチソート,画像復元から,超解像,デノナイズ,カラー化を含むモデルを事前訓練することができる。
提案手法は,最先端の自己監督型視覚モデル事前学習法と比較して,訓練のエポックさを極めて少なく抑えつつ,同等かつ優れた性能を提供することを示す。
本研究は,マスク画像モデリング以外の自己教師付き視覚モデルの事前学習とプリテキストタスクのさらなる探求に光を当てた。
関連論文リスト
- From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。
本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-11-16T03:21:06Z) - PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - A Generative Model for Generic Light Field Reconstruction [15.394019131959096]
可変オートエンコーダを用いた4次元光電場パッチ生成モデルを初めて提示する。
我々は、光場の中心的な視点で条件付き生成モデルを開発し、これをエネルギー最小化フレームワークにプリミティブとして組み込む。
提案手法は,エンド・ツー・エンドのトレーニングネットワークに接近する性能向上を実証する。
論文 参考訳(メタデータ) (2020-05-13T18:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。