論文の概要: Palette: Image-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2111.05826v1
- Date: Wed, 10 Nov 2021 17:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:25:32.557711
- Title: Palette: Image-to-Image Diffusion Models
- Title(参考訳): Palette: 画像間拡散モデル
- Authors: Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan
Ho, Tim Salimans, David J. Fleet, Mohammad Norouzi
- Abstract要約: 我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
- 参考スコア(独自算出の注目度): 50.268441533631176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Palette, a simple and general framework for image-to-image
translation using conditional diffusion models. On four challenging
image-to-image translation tasks (colorization, inpainting, uncropping, and
JPEG decompression), Palette outperforms strong GAN and regression baselines,
and establishes a new state of the art. This is accomplished without
task-specific hyper-parameter tuning, architecture customization, or any
auxiliary loss, demonstrating a desirable degree of generality and flexibility.
We uncover the impact of using $L_2$ vs. $L_1$ loss in the denoising diffusion
objective on sample diversity, and demonstrate the importance of self-attention
through empirical architecture studies. Importantly, we advocate a unified
evaluation protocol based on ImageNet, and report several sample quality scores
including FID, Inception Score, Classification Accuracy of a pre-trained
ResNet-50, and Perceptual Distance against reference images for various
baselines. We expect this standardized evaluation protocol to play a critical
role in advancing image-to-image translation research. Finally, we show that a
single generalist Palette model trained on 3 tasks (colorization, inpainting,
JPEG decompression) performs as well or better than task-specific specialist
counterparts.
- Abstract(参考訳): 我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
画像から画像への変換に挑戦する4つのタスク(色付け、塗装、切り離し、JPEG圧縮)において、Paletteは強力なGANと回帰ベースラインを上回り、新たな最先端技術を確立する。
これはタスク固有のハイパーパラメータチューニング、アーキテクチャのカスタマイズ、あるいは補助的な損失なしに実現され、望ましい汎用性と柔軟性を示す。
L_2$対$L_1$損失がサンプルの多様性に与える影響を明らかにするとともに,経験的アーキテクチャ研究による自己意識の重要性を実証する。
重要な点は,imagenetに基づく統一評価プロトコルを提唱し,fid,インセプションスコア,resnet-50の分類精度,各種基準画像に対する知覚距離など,いくつかのサンプル品質スコアを報告することである。
我々は、この標準化評価プロトコルが、画像から画像への翻訳研究の進展において重要な役割を果たすことを期待している。
最後に,3つのタスク(着色,着色,JPEGデプレッション)で訓練された1つの一般パレットモデルが,タスク固有のスペシャリストよりも優れていることを示す。
関連論文リスト
- BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Benchmark Generation Framework with Customizable Distortions for Image
Classifier Robustness [4.339574774938128]
本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
論文 参考訳(メタデータ) (2023-10-28T07:40:42Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。