論文の概要: Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2311.17919v1
- Date: Wed, 29 Nov 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:11:45.776036
- Title: Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion
Models
- Title(参考訳): ビジュアルアナグラム:拡散モデルを用いた多視点光錯覚の生成
- Authors: Daniel Geng, Inbum Park, Andrew Owens
- Abstract要約: マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。
既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
- 参考スコア(独自算出の注目度): 17.956929707705687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of synthesizing multi-view optical illusions: images
that change appearance upon a transformation, such as a flip or rotation. We
propose a simple, zero-shot method for obtaining these illusions from
off-the-shelf text-to-image diffusion models. During the reverse diffusion
process, we estimate the noise from different views of a noisy image. We then
combine these noise estimates together and denoise the image. A theoretical
analysis suggests that this method works precisely for views that can be
written as orthogonal transformations, of which permutations are a subset. This
leads to the idea of a visual anagram--an image that changes appearance under
some rearrangement of pixels. This includes rotations and flips, but also more
exotic pixel permutations such as a jigsaw rearrangement. Our approach also
naturally extends to illusions with more than two views. We provide both
qualitative and quantitative results demonstrating the effectiveness and
flexibility of our method. Please see our project webpage for additional
visualizations and results: https://dangeng.github.io/visual_anagrams/
- Abstract(参考訳): マルチビュー光イリュージョンを合成する問題、すなわちフリップや回転のような変換によって外観が変化する画像に対処する。
既成のテキスト・ツー・イメージ拡散モデルからこれらの錯覚を得るためのシンプルなゼロショット法を提案する。
逆拡散過程において,雑音画像の異なる視点から雑音を推定する。
そして、これらのノイズの見積もりを組み合わせることで、画像をデノベーションします。
理論的解析によれば、この方法は直交変換として記述できるビューに対して正確に機能し、置換は部分集合である。
これは、あるピクセルの再配置の下で外観を変える視覚的アナグラム(英語版)というイメージのアイデアに繋がる。
これは回転やフリップを含むが、ジグソー再構成のようなよりエキゾチックなピクセル置換も含む。
私たちのアプローチは、自然に2つ以上の視点で幻想にまで拡張します。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
さらなる視覚化と結果については、プロジェクトのWebページを参照してください。
関連論文リスト
- Making Images from Images: Interleaving Denoising and Transformation [5.776000002820102]
我々は、画像の内容だけでなく、所望の画像を互いに変換するために必要なパラメータ化変換も学習する。
画像変換を学習することで、任意のソースイメージを事前に指定することができる。
従来の手法とは異なり、リージョンの数を増やすことで、この問題がより簡単になり、結果が改善される。
論文 参考訳(メタデータ) (2024-11-24T17:13:11Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Factorized Diffusion: Perceptual Illusions by Noise Decomposition [15.977340635967018]
拡散モデルサンプリングにより各成分を制御するゼロショット法を提案する。
そこで本手法は, コンポジション生成と空間制御に対する事前のアプローチを復元する。
実画像からハイブリッド画像を生成するために,我々のアプローチを拡張できることが示される。
論文 参考訳(メタデータ) (2024-04-17T17:59:59Z) - Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-12-06T18:59:18Z) - Inversion-by-Inversion: Exemplar-based Sketch-to-Photo Synthesis via
Stochastic Differential Equations without Training [46.75803514327477]
Exemplar-based sketch-to-photo synthesisでは、スケッチに基づいて写真リアルな画像を生成することができる。
スケッチ画像から色とテクスチャで写実的な画像を生成することは、拡散モデルでは依然として困難である。
Inversion-by-Inversionという2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T09:27:57Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Cross-View Image Synthesis with Deformable Convolution and Attention
Mechanism [29.528402825356398]
本稿では、変形可能な畳み込みとアテンション機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する。
シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。
論文 参考訳(メタデータ) (2020-07-20T03:08:36Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。