論文の概要: Diffusion Illusions: Hiding Images in Plain Sight
- arxiv url: http://arxiv.org/abs/2312.03817v1
- Date: Wed, 6 Dec 2023 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:15:30.631728
- Title: Diffusion Illusions: Hiding Images in Plain Sight
- Title(参考訳): 拡散錯覚:ぼろぼろぼろにイメージを隠す
- Authors: Ryan Burgert, Xiang Li, Abe Leite, Kanchana Ranasinghe, Michael S.
Ryoo
- Abstract要約: 拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 37.87050866208039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the problem of computationally generating special `prime' images
that produce optical illusions when physically arranged and viewed in a certain
way. First, we propose a formal definition for this problem. Next, we introduce
Diffusion Illusions, the first comprehensive pipeline designed to automatically
generate a wide range of these illusions. Specifically, we both adapt the
existing `score distillation loss' and propose a new `dream target loss' to
optimize a group of differentially parametrized prime images, using a frozen
text-to-image diffusion model. We study three types of illusions, each where
the prime images are arranged in different ways and optimized using the
aforementioned losses such that images derived from them align with user-chosen
text prompts or images. We conduct comprehensive experiments on these illusions
and verify the effectiveness of our proposed method qualitatively and
quantitatively. Additionally, we showcase the successful physical fabrication
of our illusions -- as they are all designed to work in the real world. Our
code and examples are publicly available at our interactive project website:
https://diffusionillusions.com
- Abstract(参考訳): 物理的に配置し、ある方法で見ると、光学的錯覚を生じさせる特別な「プライム」画像を計算的に生成する問題を探究する。
まず,この問題に対する形式的定義を提案する。
次にDiffusion Illusionsを紹介します。これは、これらの錯覚を自動的に生成するように設計された最初の包括的パイプラインです。
具体的には, 凍結したテキストから画像への拡散モデルを用いて, 既存の「コア蒸留損失」を適応させ, 新しい「ドリーム目標損失」を提案する。
主画像の配置が異なる3種類の錯覚について検討し,それらから派生した画像がユーザ・チョーセンのテキストプロンプトや画像と整合するように,上記の損失を用いて最適化する。
これらの錯覚を総合的に実験し,提案手法の有効性を質的,定量的に検証した。
さらに、現実の世界で動くように設計されているので、錯覚の物理的作りの成功を実演します。
私たちのコードとサンプルはインタラクティブプロジェクトのWebサイトで公開されています。
関連論文リスト
- IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文 参考訳(メタデータ) (2024-12-13T13:07:08Z) - Illusion3D: 3D Multiview Illusion with 2D Diffusion Priors [19.58299058678772]
ユーザが提供するテキストプロンプトや画像に基づいて、3次元のマルチビューイリュージョンを作成するための,シンプルで効果的なアプローチを提案する。
本手法は,事前学習したテキスト・画像拡散モデルを用いて,ニューラル3次元表現のテクスチャと形状を最適化する。
我々は,生成した3次元マルチビューイリュージョンの品質を向上させるために,いくつかの手法を開発した。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。
我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。
実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文 参考訳(メタデータ) (2024-06-29T17:57:22Z) - BRI3L: A Brightness Illusion Image Dataset for Identification and
Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。
1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。
深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文 参考訳(メタデータ) (2024-02-07T02:57:40Z) - Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models [15.977340635967018]
マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。
既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。
既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。
本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T12:39:28Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。