Fugu-MT 論文翻訳(概要): Diffusion Illusions: Hiding Images in Plain Sight

論文の概要: Diffusion Illusions: Hiding Images in Plain Sight

arxiv url: http://arxiv.org/abs/2312.03817v1
Date: Wed, 6 Dec 2023 18:59:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 17:15:30.631728
Title: Diffusion Illusions: Hiding Images in Plain Sight
Title（参考訳）: 拡散錯覚:ぼろぼろぼろにイメージを隠す
Authors: Ryan Burgert, Xiang Li, Abe Leite, Kanchana Ranasinghe, Michael S. Ryoo
Abstract要約: 拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
参考スコア（独自算出の注目度）: 37.87050866208039
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the problem of computationally generating special `prime' images that produce optical illusions when physically arranged and viewed in a certain way. First, we propose a formal definition for this problem. Next, we introduce Diffusion Illusions, the first comprehensive pipeline designed to automatically generate a wide range of these illusions. Specifically, we both adapt the existing `score distillation loss' and propose a new `dream target loss' to optimize a group of differentially parametrized prime images, using a frozen text-to-image diffusion model. We study three types of illusions, each where the prime images are arranged in different ways and optimized using the aforementioned losses such that images derived from them align with user-chosen text prompts or images. We conduct comprehensive experiments on these illusions and verify the effectiveness of our proposed method qualitatively and quantitatively. Additionally, we showcase the successful physical fabrication of our illusions -- as they are all designed to work in the real world. Our code and examples are publicly available at our interactive project website: https://diffusionillusions.com
Abstract（参考訳）: 物理的に配置し、ある方法で見ると、光学的錯覚を生じさせる特別な「プライム」画像を計算的に生成する問題を探究する。まず,この問題に対する形式的定義を提案する。次にDiffusion Illusionsを紹介します。これは、これらの錯覚を自動的に生成するように設計された最初の包括的パイプラインです。具体的には, 凍結したテキストから画像への拡散モデルを用いて, 既存の「コア蒸留損失」を適応させ, 新しい「ドリーム目標損失」を提案する。主画像の配置が異なる3種類の錯覚について検討し,それらから派生した画像がユーザ・チョーセンのテキストプロンプトや画像と整合するように,上記の損失を用いて最適化する。これらの錯覚を総合的に実験し,提案手法の有効性を質的,定量的に検証した。さらに、現実の世界で動くように設計されているので、錯覚の物理的作りの成功を実演します。私たちのコードとサンプルはインタラクティブプロジェクトのWebサイトで公開されています。

関連論文リスト

Hate in Plain Sight: On the Risks of Moderating AI-Generated Hateful Illusions [26.051334752537546]
本稿では,スケーラブルなヘイトフルイリュージョン生成のリスクと,現在のコンテンツモデレーションモデルを回避する可能性について検討する。我々は62のヘイトメッセージに条件付き安定拡散と制御ネットを用いて1,860個の光学錯視を生成する。そのうち1,571件はヘイトメッセージの埋め込みに成功し、Hateful Illusionデータセットを形成している。
論文参考訳（メタデータ） (2025-07-30T12:37:29Z)
IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文参考訳（メタデータ） (2025-01-01T14:10:25Z)
The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文参考訳（メタデータ） (2024-12-13T13:07:08Z)
Illusion3D: 3D Multiview Illusion with 2D Diffusion Priors [19.58299058678772]
ユーザが提供するテキストプロンプトや画像に基づいて、3次元のマルチビューイリュージョンを作成するための,シンプルで効果的なアプローチを提案する。本手法は,事前学習したテキスト・画像拡散モデルを用いて,ニューラル3次元表現のテクスチャと形状を最適化する。我々は,生成した3次元マルチビューイリュージョンの品質を向上させるために,いくつかの手法を開発した。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文参考訳（メタデータ） (2024-06-29T17:57:22Z)
BRI3L: A Brightness Illusion Image Dataset for Identification and Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。 1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文参考訳（メタデータ） (2024-02-07T02:57:40Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models [15.977340635967018]
マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
論文参考訳（メタデータ） (2023-11-29T18:59:59Z)
Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文参考訳（メタデータ） (2023-09-30T12:39:28Z)
Photo2Relief: Let Human in the Photograph Stand Out [26.102307166656157]
そこで我々は,勾配領域で定義された損失関数を装備することにより,勾配を正確に操作し,ニューラルネットワークを訓練するシグモイド変分関数を導入する。ネットワークモジュールにおける作業の明確な分割を実現するため,一枚の写真から高品質なリリーフを実現するための2スケールアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-21T05:33:57Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。