論文の概要: Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2306.08645v2
- Date: Thu, 26 Oct 2023 09:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:27:48.768083
- Title: Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis
- Title(参考訳): 可変サイズテキスト・画像合成のための学習自由拡散モデル適応
- Authors: Zhiyu Jin and Xuli Shen and Bin Li and Xiangyang Xue
- Abstract要約: 拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
- 参考スコア(独自算出の注目度): 45.19847146506007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have recently gained attention with state-of-the-art
performance in text-to-image synthesis. Abiding by the tradition in deep
learning, DMs are trained and evaluated on the images with fixed sizes.
However, users are demanding for various images with specific sizes and various
aspect ratio. This paper focuses on adapting text-to-image diffusion models to
handle such variety while maintaining visual fidelity. First we observe that,
during the synthesis, lower resolution images suffer from incomplete object
portrayal, while higher resolution images exhibit repetitively disordered
presentation. Next, we establish a statistical relationship indicating that
attention entropy changes with token quantity, suggesting that models aggregate
spatial information in proportion to image resolution. The subsequent
interpretation on our observations is that objects are incompletely depicted
due to limited spatial information for low resolutions, while repetitively
disorganized presentation arises from redundant spatial information for high
resolutions. From this perspective, we propose a scaling factor to alleviate
the change of attention entropy and mitigate the defective pattern observed.
Extensive experimental results validate the efficacy of the proposed scaling
factor, enabling models to achieve better visual effects, image quality, and
text alignment. Notably, these improvements are achieved without additional
training or fine-tuning techniques.
- Abstract(参考訳): 拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
ディープラーニングの伝統に従って、DMは一定サイズの画像に基づいて訓練され、評価される。
しかし、ユーザーは特定のサイズと様々なアスペクト比で様々な画像を要求する。
本稿では,視覚の忠実性を維持しつつ,テキストから画像への拡散モデルを適用することに焦点を当てる。
まず、合成中は、解像度の低い画像は不完全な物体の描写に悩まされ、高解像度画像は繰り返し乱れを示す。
次に,注意エントロピーがトークン量とともに変化することを示す統計的関係を確立し,モデルが画像解像度に比例して空間情報を集約することを示す。
その後の観察では、低分解能の空間情報が限られたため、オブジェクトは不完全に描写されるが、高分解能の余分な空間情報から繰り返し非組織的な提示が生じる。
この観点から,注意エントロピーの変化を緩和し,観察した欠陥パターンを緩和するためのスケーリング係数を提案する。
広範な実験結果から,提案するスケーリング係数の有効性が検証され,視覚効果,画質,テキストアライメントが向上した。
特に、これらの改善は、追加のトレーニングや微調整技術なしで達成される。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - DaliID: Distortion-Adaptive Learned Invariance for Identification Models [9.502663556403622]
本稿では,同定のための歪み適応型学習不変性(DaliID)モデルを提案する。
DaliIDモデルは、7つのベンチマークデータセット上で、顔認識と人物の再識別の両方のために、最先端(SOTA)を実現する。
論文 参考訳(メタデータ) (2023-02-11T18:19:41Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。