論文の概要: An Image is Worth Multiple Words: Multi-attribute Inversion for
Constrained Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2311.11919v1
- Date: Mon, 20 Nov 2023 16:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:52:32.507144
- Title: An Image is Worth Multiple Words: Multi-attribute Inversion for
Constrained Text-to-Image Synthesis
- Title(参考訳): 価値ある複数の単語:制約付きテキスト-画像合成のための多属性変換
- Authors: Aishwarya Agarwal, Srikrishna Karanam, Tripti Shukla, Balaji Vasan
Srinivasan
- Abstract要約: 主な目的は、単一の参照画像から複数の属性(色、オブジェクト、レイアウト、スタイルなど)を抽出し、新しいサンプルを生成することである。
これらの属性のサブセットが、同じモデルレイヤや/または同じデノーミングタイムステップでキャプチャされることがよくあります。
我々は,多属性逆変換アルゴリズムであるMATTEを設計し,関連性のあるアンタングル化エンハンスな正規化損失を解消する。
- 参考スコア(独自算出の注目度): 16.634138745034733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of constraining diffusion model outputs with a
user-supplied reference image. Our key objective is to extract multiple
attributes (e.g., color, object, layout, style) from this single reference
image, and then generate new samples with them. One line of existing work
proposes to invert the reference images into a single textual conditioning
vector, enabling generation of new samples with this learned token. These
methods, however, do not learn multiple tokens that are necessary to condition
model outputs on the multiple attributes noted above. Another line of
techniques expand the inversion space to learn multiple embeddings but they do
this only along the layer dimension (e.g., one per layer of the DDPM model) or
the timestep dimension (one for a set of timesteps in the denoising process),
leading to suboptimal attribute disentanglement. To address the aforementioned
gaps, the first contribution of this paper is an extensive analysis to
determine which attributes are captured in which dimension of the denoising
process. As noted above, we consider both the time-step dimension (in reverse
denoising) as well as the DDPM model layer dimension. We observe that often a
subset of these attributes are captured in the same set of model layers and/or
across same denoising timesteps. For instance, color and style are captured
across same U-Net layers, whereas layout and color are captured across same
timestep stages. Consequently, an inversion process that is designed only for
the time-step dimension or the layer dimension is insufficient to disentangle
all attributes. This leads to our second contribution where we design a new
multi-attribute inversion algorithm, MATTE, with associated
disentanglement-enhancing regularization losses, that operates across both
dimensions and explicitly leads to four disentangled tokens (color, style,
layout, and object).
- Abstract(参考訳): 拡散モデル出力をユーザ供給参照画像で制約する問題を考える。
私たちのキーとなる目的は、この単一の参照イメージから複数の属性(色、オブジェクト、レイアウト、スタイルなど)を抽出し、それを使って新しいサンプルを生成することです。
既存の研究の1行は、参照画像を単一のテキスト条件ベクトルに変換し、この学習トークンで新しいサンプルを生成することを提案する。
しかし、これらのメソッドは、上述の複数の属性のモデル出力を条件付けるために必要な複数のトークンを学習しない。
別の手法の行は反転空間を拡張して複数の埋め込みを学習するが、これらは層次元(例えばDDPMモデルの1層当たり)や時間ステップ次元(除音過程における一連のタイムステップ)に沿ってしか行わず、最適属性の非絡み合いをもたらす。
上記のギャップに対処するため,本稿の最初の貢献は,どの属性をどの次元で取得するかを決定するための広範な分析である。
上述したように、時間ステップ次元(逆騒音)とDDPMモデル層次元の両方を考慮する。
これらの属性のサブセットが、同じモデルレイヤや/または同じデノーミングタイムステップでキャプチャされることがよくあります。
例えば、色とスタイルは同一のu-netレイヤでキャプチャされ、レイアウトと色は同じタイムステップでキャプチャされます。
したがって、時間ステップ次元や層次元のみのために設計された反転過程は、すべての属性を乱すには不十分である。
これは、新しいマルチ属性逆変換アルゴリズムであるMATTEを設計し、関連するアンタングルメント強化正規化損失を伴って、両次元をまたいで動作し、4つのアンタングルトークン(色、スタイル、レイアウト、オブジェクト)を明示的に導く2番目の貢献につながります。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation [14.725538019917625]
拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
論文 参考訳(メタデータ) (2023-07-12T04:11:08Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Robust One-shot Segmentation of Brain Tissues via Image-aligned Style
Transformation [13.430851964063534]
本稿では,脳組織のワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。
2つの公開データセットによる実験結果から,1)完全教師付き手法と比較して,提案手法の競合セグメンテーション性能が向上し,2)Diceの平均値が4.67%向上した他の最先端技術よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-26T09:14:01Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Multi-temporal and multi-source remote sensing image classification by
nonlinear relative normalization [17.124438150480326]
emカーネル化により,異なるドメインのデータを非線形に整列する手法を検討する。
我々は,超スペクトルイメージングのためのシャドウイングに不変なモデルを作成する作業に加えて,多時間的および多元的超高分解能分類タスクにおいてkemaのテストに成功した。
論文 参考訳(メタデータ) (2020-12-07T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。