論文の概要: Diffusion-based Visual Anagram as Multi-task Learning
- arxiv url: http://arxiv.org/abs/2412.02693v1
- Date: Tue, 03 Dec 2024 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:11.398008
- Title: Diffusion-based Visual Anagram as Multi-task Learning
- Title(参考訳): マルチタスク学習における拡散型ビジュアルアナグラム
- Authors: Zhiyuan Xu, Yinhe Chen, Huan-ang Gao, Weiyan Zhao, Guiyu Zhang, Hao Zhao,
- Abstract要約: 視覚アナグラム(英: visual anagram)とは、回転や回転などの変換によって外観が変化する画像である。
多様な概念にまたがる真のアナグラムを生成する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 9.233197675701025
- License:
- Abstract: Visual anagrams are images that change appearance upon transformation, like flipping or rotation. With the advent of diffusion models, generating such optical illusions can be achieved by averaging noise across multiple views during the reverse denoising process. However, we observe two critical failure modes in this approach: (i) concept segregation, where concepts in different views are independently generated, which can not be considered a true anagram, and (ii) concept domination, where certain concepts overpower others. In this work, we cast the visual anagram generation problem in a multi-task learning setting, where different viewpoint prompts are analogous to different tasks,and derive denoising trajectories that align well across tasks simultaneously. At the core of our designed framework are two newly introduced techniques, where (i) an anti-segregation optimization strategy that promotes overlap in cross-attention maps between different concepts, and (ii) a noise vector balancing method that adaptively adjusts the influence of different tasks. Additionally, we observe that directly averaging noise predictions yields suboptimal performance because statistical properties may not be preserved, prompting us to derive a noise variance rectification method. Extensive qualitative and quantitative experiments demonstrate our method's superior ability to generate visual anagrams spanning diverse concepts.
- Abstract(参考訳): ビジュアルアナグラム(Visual anagram)は、回転や回転などの変換によって外観が変化する画像である。
拡散モデルが出現すると、逆デノナイジング過程において、複数のビューにまたがるノイズを平均化することにより、そのような錯覚を生成することができる。
しかし、このアプローチでは2つの重要な障害モードを観察します。
一 別観の概念を独立して生み出す概念分離であって、真のアナグラムとは考えられないもの
(二)ある概念が他を圧倒する概念支配。
本研究では,異なる視点のプロンプトが異なるタスクと類似しているマルチタスク学習環境において,視覚的なアナグラム生成問題を提起し,同時にタスク間で適切に整合する軌道を導出する。
設計したフレームワークの中核には、新しく導入された2つのテクニックがあります。
(i)異なる概念間の相互注意マップの重複を促進する分離防止最適化戦略及び
(II)異なるタスクの影響を適応的に調整するノイズベクトルバランス方法。
さらに,統計的特性を保存できないため,雑音予測の直接的平均化が準最適性能をもたらすことを観察し,ノイズ分散補正法を導出する。
大規模定性的および定量的実験により,多様な概念にまたがる視覚アナグラムを生成できることが実証された。
関連論文リスト
- Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。
我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-05-30T17:34:40Z) - Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models [15.977340635967018]
マルチビュー光学錯視(Multi-view optical illusions)は、フリップや回転などの変換によって外観が変化する画像である。
既製のテキスト・画像拡散モデルからこれらの錯覚を得るゼロショット法を提案する。
本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。