論文の概要: LEMaRT: Label-Efficient Masked Region Transform for Image Harmonization
- arxiv url: http://arxiv.org/abs/2304.13166v1
- Date: Tue, 25 Apr 2023 21:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:14:21.393979
- Title: LEMaRT: Label-Efficient Masked Region Transform for Image Harmonization
- Title(参考訳): LEMaRT:画像調和のためのラベル効率の良いマスク付き領域変換
- Authors: Sheng Liu, Cong Phuoc Huynh, Cong Chen, Maxim Arap, Raffay Hamid
- Abstract要約: 画像調和のための簡易かつ効果的な自己教師付き事前学習法を提案する。
この目標を達成するために、私たちはまず、Label-Efficient Masked Region Transform Pipelineを使用して、オンラインで事前トレーニングデータを生成します。
次に、摂動画像から原画像を取り出すことにより、事前訓練画像調和モデルを構築する。
- 参考スコア(独自算出の注目度): 12.500537082409798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple yet effective self-supervised pre-training method for
image harmonization which can leverage large-scale unannotated image datasets.
To achieve this goal, we first generate pre-training data online with our
Label-Efficient Masked Region Transform (LEMaRT) pipeline. Given an image,
LEMaRT generates a foreground mask and then applies a set of transformations to
perturb various visual attributes, e.g., defocus blur, contrast, saturation, of
the region specified by the generated mask. We then pre-train image
harmonization models by recovering the original image from the perturbed image.
Secondly, we introduce an image harmonization model, namely SwinIH, by
retrofitting the Swin Transformer [27] with a combination of local and global
self-attention mechanisms. Pre-training SwinIH with LEMaRT results in a new
state of the art for image harmonization, while being label-efficient, i.e.,
consuming less annotated data for fine-tuning than existing methods. Notably,
on iHarmony4 dataset [8], SwinIH outperforms the state of the art, i.e., SCS-Co
[16] by a margin of 0.4 dB when it is fine-tuned on only 50% of the training
data, and by 1.0 dB when it is trained on the full training dataset.
- Abstract(参考訳): 本稿では,大規模無注画像データセットを活用可能な画像調和のための,単純かつ効果的な自己教師付き事前学習手法を提案する。
この目標を達成するために、私たちはまず、Label-Efficient Masked Region Transform (LEMaRT)パイプラインでオンラインで事前トレーニングデータを生成します。
画像が与えられた後、LEMaRTは前景マスクを生成し、その後、生成されたマスクによって指定された領域のデフォーカスブラー、コントラスト、飽和などの様々な視覚特性を摂動させる一連の変換を適用する。
次に,摂動画像から元の画像を復元して画像調和モデルを事前学習する。
次に,Swin Transformer[27]を局所的・大域的自己注意機構の組み合わせで再現することで,画像調和モデル,すなわちSwinIHを導入する。
LEMaRTを用いたSwinIHの事前トレーニングは、ラベル効率が良く、既存の方法よりも微調整にアノテーションの少ないデータを使用するという、画像調和技術の新しい状態をもたらす。
特に、iHarmony4データセット[8]では、SwinIHは、トレーニングデータのわずか50%で微調整された場合、SCS-Co[16]のマージンが0.4dB、フルトレーニングデータセットでトレーニングされた場合には1.0dBという、芸術の状態を上回ります。
関連論文リスト
- FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - FRIH: Fine-grained Region-aware Image Harmonization [49.420765789360836]
我々は,FRIH(Fentral-Aware Image Harmonization)のための新しいグローバルな2段階フレームワークを提案する。
提案アルゴリズムは,軽量モデルを用いて,iHarmony4データセット(PSNRは38.19dB)上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-05-13T04:50:26Z) - Image Generation with Self Pixel-wise Normalization [17.147675335268282]
領域適応正規化(RAN)法はGAN(Generative Adversarial Network)に基づく画像と画像の変換技術で広く用いられている。
本稿では,マスク画像のない画素適応アフィン変換を行うことにより,自己画素ワイド正規化(SPN)と呼ばれる新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:14:31Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。