論文の概要: AID: Attention Interpolation of Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2403.17924v3
- Date: Fri, 04 Oct 2024 17:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:51.151857
- Title: AID: Attention Interpolation of Text-to-Image Diffusion
- Title(参考訳): AID:テキスト・画像拡散の注意補間
- Authors: Qiyuan He, Jinghao Wang, Ziwei Liu, Angela Yao,
- Abstract要約: AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。
AIDは補間された注意を自己注意と融合させ、忠実性を高める。
また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
- 参考スコア(独自算出の注目度): 64.87754163416241
- License:
- Abstract: Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion.
- Abstract(参考訳): 条件付き拡散モデルは、様々な設定で見えない画像を生成し、画像補間を支援する。
潜在空間における補間はよく研究されているが、テキストやポーズといった特定の条件との補間は理解されていない。
条件空間における線形補間のような単純なアプローチは、一貫性、滑らかさ、忠実さに欠けるイメージをもたらすことが多い。
そこで本研究では,Diffusion (AID) による注意補間(Attention Interpolation) という,新たなトレーニングフリー手法を提案する。
主な貢献は
1)インナー/インナー/インナー補間注意層の提案
2 補間された注意を自己注意と融合して忠実性を高めること。
3) 選別にベータ分布を適用して滑らかさを高めた。
また,Pmpt-Guided Attention Interpolation via Diffusion (PAID) を条件依存型生成プロセスとして検討した。
この方法では、一貫性、滑らか性、効率性が向上した新しい画像の作成が可能であり、補間の正確な経路を制御できる。
提案手法は,概念的および空間的補間の有効性を示す。
コードとデモはhttps://github.com/QY-H00/attention-interpolation-diffusionで公開されている。
関連論文リスト
- DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models [24.382275473592046]
知覚一様サンプリング(IMPUS)を用いた拡散型画像形成手法を提案する。
IMPUSは画像対を与えられた滑らかで直接的で現実的な適応を生成する。
論文 参考訳(メタデータ) (2023-11-12T10:03:32Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Interpolating between Images with Diffusion Models [2.6027967363792865]
2つの入力イメージ間の補間は、画像生成パイプラインから欠落するタスクである。
潜在拡散モデルを用いたゼロショット法を提案する。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高の画質のイメージを選択することができる。
論文 参考訳(メタデータ) (2023-07-24T07:03:22Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - Unsupervised Foggy Scene Understanding via Self Spatial-Temporal Label
Diffusion [51.11295961195151]
運転シーンの霧画像列の特徴を利用して、自信ある擬似ラベルを密度化する。
局所的な空間的類似性と逐次画像データの隣接時間対応の2つの発見に基づいて,新たなターゲット・ドメイン駆動擬似ラベル拡散方式を提案する。
本手法は,2つの天然霧のデータセット上で51.92%,53.84%の平均交叉結合(mIoU)を達成するのに有効である。
論文 参考訳(メタデータ) (2022-06-10T05:16:50Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。