論文の概要: Diffusion Illusions: Hiding Images in Plain Sight
- arxiv url: http://arxiv.org/abs/2312.03817v1
- Date: Wed, 6 Dec 2023 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:15:30.631728
- Title: Diffusion Illusions: Hiding Images in Plain Sight
- Title(参考訳): 拡散錯覚:ぼろぼろぼろにイメージを隠す
- Authors: Ryan Burgert, Xiang Li, Abe Leite, Kanchana Ranasinghe, Michael S.
Ryoo
- Abstract要約: 拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 37.87050866208039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the problem of computationally generating special `prime' images
that produce optical illusions when physically arranged and viewed in a certain
way. First, we propose a formal definition for this problem. Next, we introduce
Diffusion Illusions, the first comprehensive pipeline designed to automatically
generate a wide range of these illusions. Specifically, we both adapt the
existing `score distillation loss' and propose a new `dream target loss' to
optimize a group of differentially parametrized prime images, using a frozen
text-to-image diffusion model. We study three types of illusions, each where
the prime images are arranged in different ways and optimized using the
aforementioned losses such that images derived from them align with user-chosen
text prompts or images. We conduct comprehensive experiments on these illusions
and verify the effectiveness of our proposed method qualitatively and
quantitatively. Additionally, we showcase the successful physical fabrication
of our illusions -- as they are all designed to work in the real world. Our
code and examples are publicly available at our interactive project website:
https://diffusionillusions.com
- Abstract(参考訳): 物理的に配置し、ある方法で見ると、光学的錯覚を生じさせる特別な「プライム」画像を計算的に生成する問題を探究する。
まず,この問題に対する形式的定義を提案する。
次にDiffusion Illusionsを紹介します。これは、これらの錯覚を自動的に生成するように設計された最初の包括的パイプラインです。
具体的には, 凍結したテキストから画像への拡散モデルを用いて, 既存の「コア蒸留損失」を適応させ, 新しい「ドリーム目標損失」を提案する。
主画像の配置が異なる3種類の錯覚について検討し,それらから派生した画像がユーザ・チョーセンのテキストプロンプトや画像と整合するように,上記の損失を用いて最適化する。
これらの錯覚を総合的に実験し,提案手法の有効性を質的,定量的に検証した。
さらに、現実の世界で動くように設計されているので、錯覚の物理的作りの成功を実演します。
私たちのコードとサンプルはインタラクティブプロジェクトのWebサイトで公開されています。
関連論文リスト
- FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。
我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。
実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文 参考訳(メタデータ) (2024-06-29T17:57:22Z) - BRI3L: A Brightness Illusion Image Dataset for Identification and
Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。
1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。
深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文 参考訳(メタデータ) (2024-02-07T02:57:40Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models [15.977340635967018]
マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。
既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。
既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。
本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T12:39:28Z) - Photo2Relief: Let Human in the Photograph Stand Out [26.102307166656157]
そこで我々は,勾配領域で定義された損失関数を装備することにより,勾配を正確に操作し,ニューラルネットワークを訓練するシグモイド変分関数を導入する。
ネットワークモジュールにおける作業の明確な分割を実現するため,一枚の写真から高品質なリリーフを実現するための2スケールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-21T05:33:57Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。