論文の概要: Boomerang: Local sampling on image manifolds using diffusion models
- arxiv url: http://arxiv.org/abs/2210.12100v1
- Date: Fri, 21 Oct 2022 16:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:34:27.639381
- Title: Boomerang: Local sampling on image manifolds using diffusion models
- Title(参考訳): boomerang:拡散モデルを用いた画像多様体上の局所サンプリング
- Authors: Lorenzo Luzi, Ali Siahkoohi, Paul M Mayer, Josue Casco-Rodriguez,
Richard Baraniuk
- Abstract要約: 拡散モデルは、高次元の潜在空間の低次元学習多様体への写像点と見なすことができる。
本稿では,拡散モデルのダイナミクスを用いた局所画像多様体サンプリング手法であるBoomerangを紹介する。
- 参考スコア(独自算出の注目度): 1.3999481573773072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models can be viewed as mapping points in a high-dimensional latent
space onto a low-dimensional learned manifold, typically an image manifold. The
intermediate values between the latent space and image manifold can be
interpreted as noisy images which are determined by the noise scheduling scheme
employed during pre-training. We exploit this interpretation to introduce
Boomerang, a local image manifold sampling approach using the dynamics of
diffusion models. We call it Boomerang because we first add noise to an input
image, moving it closer to the latent space, then bring it back to the image
space through diffusion dynamics. We use this method to generate images which
are similar, but nonidentical, to the original input images on the image
manifold. We are able to set how close the generated image is to the original
based on how much noise we add. Additionally, the generated images have a
degree of stochasticity, allowing us to locally sample as many times as we want
without repetition. We show three applications for which Boomerang can be used.
First, we provide a framework for constructing privacy-preserving datasets
having controllable degrees of anonymity. Second, we show how to use Boomerang
for data augmentation while staying on the image manifold. Third, we introduce
a framework for image super-resolution with 8x upsampling. Boomerang does not
require any modification to the training of diffusion models and can be used
with pretrained models on a single, inexpensive GPU.
- Abstract(参考訳): 拡散モデルは、高次元の潜在空間の低次元学習多様体(典型的には像多様体)への写像点と見なすことができる。
遅延空間と画像多様体の間の中間値は、事前学習時に使用するノイズスケジューリングスキームによって決定されるノイズ画像と解釈できる。
この解釈を用いて,拡散モデルのダイナミクスを用いた局所画像多様体サンプリング手法boomerangを導入する。
これをboomerangと呼ぶのは、まず入力画像にノイズを加え、それを潜在空間に近づけて、拡散ダイナミクスを通じて画像空間に戻すからです。
この手法を用いて、画像多様体上の元の入力画像と類似しているが同一でない画像を生成する。
生成したイメージがオリジナルにどの程度近いかは、ノイズの量に基づいて設定できます。
さらに、生成された画像は確率性の度合いがあり、反復せずに何回も局所的にサンプリングすることができる。
我々はboomerangを使用できる3つの応用例を示す。
まず、匿名性制御が可能なプライバシー保護データセットを構築するためのフレームワークを提供する。
次に,画像多様体上に留まりながら,データ拡張にBoomerangを使用する方法を示す。
第3に,8倍のアップサンプリングによる画像超解像のためのフレームワークを提案する。
Boomerangは拡散モデルのトレーニングを一切必要とせず、単一の安価なGPU上で事前訓練されたモデルで使用することができる。
関連論文リスト
- Probabilistic and Semantic Descriptions of Image Manifolds and Their
Applications [28.554065677506966]
画像は高次元空間の低次元多様体上にあると言うのが一般的である。
画像は多様体上に不均一に分布し、この分布を確率分布としてモデル化する方法を考案する。
多様体上の点を記述するために意味論的解釈がどのように用いられるかを示す。
論文 参考訳(メタデータ) (2023-07-06T09:36:45Z) - Diffusion with Forward Models: Solving Stochastic Inverse Problems
Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。
コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-20T17:53:00Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors [40.959642112729234]
Peekabooは、ゼロショット、オープンボキャブラリ、教師なしセマンティックグラウンド技術である。
基礎となる拡散モデルがRGB画像でのみ訓練されているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-11-23T18:59:05Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - PixelTransformer: Sample Conditioned Signal Generation [60.764218381636184]
本研究では,スパース試料に条件付き信号の分布を推定できる生成モデルを提案する。
逐次自己回帰生成モデルとは対照的に,任意のサンプルに対する条件付けが可能であり,任意の場所に対する分散クエリに答えることができる。
論文 参考訳(メタデータ) (2021-03-29T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。