論文の概要: GLoD: Composing Global Contexts and Local Details in Image Generation
- arxiv url: http://arxiv.org/abs/2404.15447v1
- Date: Tue, 23 Apr 2024 18:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:23:04.524167
- Title: GLoD: Composing Global Contexts and Local Details in Image Generation
- Title(参考訳): GLoD: 画像生成におけるグローバルコンテキストとローカル詳細の構成
- Authors: Moyuru Yamada,
- Abstract要約: Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。
複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated their capability to synthesize high-quality and diverse images from textual prompts. However, simultaneous control over both global contexts (e.g., object layouts and interactions) and local details (e.g., colors and emotions) still remains a significant challenge. The models often fail to understand complex descriptions involving multiple objects and reflect specified visual attributes to wrong targets or ignore them. This paper presents Global-Local Diffusion (\textit{GLoD}), a novel framework which allows simultaneous control over the global contexts and the local details in text-to-image generation without requiring training or fine-tuning. It assigns multiple global and local prompts to corresponding layers and composes their noises to guide a denoising process using pre-trained diffusion models. Our framework enables complex global-local compositions, conditioning objects in the global prompt with the local prompts while preserving other unspecified identities. Our quantitative and qualitative evaluations demonstrate that GLoD effectively generates complex images that adhere to both user-provided object interactions and object details.
- Abstract(参考訳): 拡散モデルは、テキストプロンプトから高品質で多様な画像を合成する能力を示した。
しかし、グローバルコンテキスト(例えば、オブジェクトレイアウトとインタラクション)とローカル詳細(例えば、色と感情)の同時制御は、依然として重要な課題である。
モデルは、複数のオブジェクトを含む複雑な記述を理解し、特定の視覚的属性を間違ったターゲットに反映したり、無視したりするのに失敗することが多い。
本稿では、訓練や微調整を必要とせず、グローバルコンテキストとローカル詳細を同時制御できる新しいフレームワークであるGlobal-Local Diffusion(\textit{GLoD})を提案する。
複数のグローバルなプロンプトとローカルなプロンプトを対応する層に割り当て、そのノイズを合成して、事前訓練された拡散モデルを用いてデノナイジングプロセスを導く。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
定量的および定性的な評価は,GLoDがユーザが提供するオブジェクトインタラクションとオブジェクトの詳細の両方に従う複雑なイメージを効果的に生成することを示す。
関連論文リスト
- Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image
Synthesis [12.490787443456636]
本稿では,3次元オブジェクト配置の制御と大域的スタイリスティックな意味論の不整合表現を統合する条件拡散モデルを提案する。
統合されたフレームワークであるtextscCompose and Conquer (CnC) はこれらの手法を統一し、複数の条件を非絡み合いでローカライズする。
論文 参考訳(メタデータ) (2024-01-17T08:30:47Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - Contextual Modeling for 3D Dense Captioning on Point Clouds [85.68339840274857]
3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
論文 参考訳(メタデータ) (2022-10-08T05:33:00Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Integrating Image Captioning with Rule-based Entity Masking [23.79124007406315]
本稿では,画像キャプションを明示的なオブジェクト(知識グラフエンティティなど)で選択するための新しいフレームワークを提案する。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
論文 参考訳(メタデータ) (2020-07-22T21:27:12Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。