論文の概要: Factorized Diffusion: Perceptual Illusions by Noise Decomposition
- arxiv url: http://arxiv.org/abs/2404.11615v1
- Date: Wed, 17 Apr 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 12:56:30.573434
- Title: Factorized Diffusion: Perceptual Illusions by Noise Decomposition
- Title(参考訳): 因子拡散:ノイズ分解による知覚的錯覚
- Authors: Daniel Geng, Inbum Park, Andrew Owens,
- Abstract要約: 拡散モデルサンプリングにより各成分を制御するゼロショット法を提案する。
そこで本手法は, コンポジション生成と空間制御に対する事前のアプローチを復元する。
実画像からハイブリッド画像を生成するために,我々のアプローチを拡張できることが示される。
- 参考スコア(独自算出の注目度): 15.977340635967018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a factorization of an image into a sum of linear components, we present a zero-shot method to control each individual component through diffusion model sampling. For example, we can decompose an image into low and high spatial frequencies and condition these components on different text prompts. This produces hybrid images, which change appearance depending on viewing distance. By decomposing an image into three frequency subbands, we can generate hybrid images with three prompts. We also use a decomposition into grayscale and color components to produce images whose appearance changes when they are viewed in grayscale, a phenomena that naturally occurs under dim lighting. And we explore a decomposition by a motion blur kernel, which produces images that change appearance under motion blurring. Our method works by denoising with a composite noise estimate, built from the components of noise estimates conditioned on different prompts. We also show that for certain decompositions, our method recovers prior approaches to compositional generation and spatial control. Finally, we show that we can extend our approach to generate hybrid images from real images. We do this by holding one component fixed and generating the remaining components, effectively solving an inverse problem.
- Abstract(参考訳): 画像の因子を線形成分の和に分解すると、拡散モデルサンプリングにより各成分を制御するゼロショット法を提案する。
例えば、画像を低空間周波数と高空間周波数に分解し、これらの成分を異なるテキストプロンプトで条件付けることができる。
これにより、視距離に応じて外観が変化するハイブリッド画像が生成される。
画像を3つの周波数サブバンドに分解することで、3つのプロンプトでハイブリッド画像を生成することができる。
我々はまた、グレースケールとカラー成分の分解を利用して、グレースケールで見るときの外観が変化した画像を生成し、これは自然に薄暗い照明の下で起こる現象である。
また,動作のぼかしによって外観が変化する画像を生成する動作ぼかしカーネルによる分解を探索する。
提案手法は,異なるプロンプトに条件付した雑音推定の成分から構築した合成雑音推定法を用いて,ノイズ推定を行う。
また, ある分解に対して, コンポジション生成と空間制御に先行した手法を復元することを示した。
最後に、実際の画像からハイブリッド画像を生成するために、我々のアプローチを拡張することができることを示す。
1つのコンポーネントを固定し、残りのコンポーネントを生成することでこれを実現し、逆問題を効果的に解決する。
関連論文リスト
- Compositional Image Decomposition with Diffusion Models [70.07406583580591]
本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは、イメージ内の異なるコンポーネントのセットを推論する教師なしの手法である。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
論文 参考訳(メタデータ) (2024-06-27T16:13:34Z) - AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation [99.57024606542416]
周波数マイニングと変調に基づく適応的なオールインワン画像復元ネットワークを提案する。
我々のアプローチは、異なる周波数サブバンド上の画像内容に異なる劣化タイプが影響を及ぼすという観察によって動機付けられている。
提案モデルでは,入力劣化に応じて情報周波数サブバンドをアクセントすることで適応的再構成を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:58:14Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models [15.977340635967018]
マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。
既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Decomposer: Semi-supervised Learning of Image Restoration and Image
Decomposition [2.702990676892003]
本稿では、歪み画像列を基本構造ブロックに分解する半教師付き再構成モデルを提案する。
我々は、多数の歪み画像列を提供するSIDARデータセットを使用する。
各歪みは、例えば加法ノイズや乗法ノイズなど、元の信号を異なる方法で変化させる。
論文 参考訳(メタデータ) (2023-11-28T14:48:22Z) - Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。
既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。
本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T12:39:28Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - Blind Image Decomposition [53.760745569495825]
本稿では,Blind Image Decomposition (BID)について述べる。
雨のような重畳された画像を異なるソースコンポーネントに分解する方法は、現実世界の視覚システムにとって重要なステップだ。
本稿では,Blind Image Decomposition Network (BIDeN) を提案する。
論文 参考訳(メタデータ) (2021-08-25T17:37:19Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - A Deep Decomposition Network for Image Processing: A Case Study for
Visible and Infrared Image Fusion [38.17268441062239]
本稿では畳み込みニューラルネットワークに基づく新しい画像分解法を提案する。
赤外線画像と可視光画像を入力し、それぞれ3つの高周波特徴画像と低周波特徴画像に分解する。
2つの特徴画像セットは、特定の融合戦略を用いて融合特徴画像を取得する。
論文 参考訳(メタデータ) (2021-02-21T06:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。