論文の概要: Griffin: Generative Reference and Layout Guided Image Composition
- arxiv url: http://arxiv.org/abs/2509.23643v1
- Date: Sun, 28 Sep 2025 04:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.347837
- Title: Griffin: Generative Reference and Layout Guided Image Composition
- Title(参考訳): Griffin: 生成参照とレイアウトガイドの画像構成
- Authors: Aryan Mikaeili, Amirhossein Alimohammadi, Negar Hassanpour, Ali Mahdavi-Amiri, Andrea Tagliasacchi,
- Abstract要約: テキストではなく画像から所望のコンテンツが指定されるマルチイメージレイアウト制御の課題に対処する。
我々のアプローチはトレーニング不要であり、参照毎に1つのイメージが必要であり、オブジェクトと部分レベルの構成を明示的でシンプルな制御を提供する。
- 参考スコア(独自算出の注目度): 36.36225867807888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models have achieved a level of realism that enables the generation of highly convincing images. However, text-based control can be a limiting factor when more explicit guidance is needed. Defining both the content and its precise placement within an image is crucial for achieving finer control. In this work, we address the challenge of multi-image layout control, where the desired content is specified through images rather than text, and the model is guided on where to place each element. Our approach is training-free, requires a single image per reference, and provides explicit and simple control for object and part-level composition. We demonstrate its effectiveness across various image composition tasks.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは、高度に説得力のある画像を生成することができるようなリアリズムのレベルを達成した。
しかし、より明示的なガイダンスが必要な場合、テキストベースの制御は制限要因となる可能性がある。
より細かい制御を実現するためには、画像内のコンテンツとその正確な配置の両方を定義することが不可欠である。
そこで本研究では,テキストではなく画像から所望のコンテンツを指定し,各要素の配置先をモデルに導出するマルチイメージレイアウト制御の課題に対処する。
我々のアプローチはトレーニング不要であり、参照毎に1つのイメージが必要であり、オブジェクトと部分レベルの構成を明示的でシンプルな制御を提供する。
様々な画像合成タスクにおいて,その有効性を示す。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
GroundingBoothは、前景と背景オブジェクトの両方にゼロショット、インスタンスレベルの空間的グラウンドを実現する。
提案するグラウンドモジュールと主観的なクロスアテンション層は、パーソナライズされた画像の作成を可能にする。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - AutoStory: Generating Diverse Storytelling Images with Minimal Human
Effort [55.83007338095763]
本稿では,多種多様で高品質で一貫したストーリーイメージを効果的に生成できる自動ストーリー可視化システムを提案する。
本研究では,大規模言語モデルの理解と計画能力をレイアウト計画に利用し,大規模テキスト・画像モデルを用いて高度なストーリー画像を生成する。
論文 参考訳(メタデータ) (2023-11-19T06:07:37Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Training-Free Layout Control with Cross-Attention Guidance [81.53405473966035]
最近の拡散型ジェネレータはテキストプロンプトから高品質な画像を生成することができる。
彼らはしばしば、構成の空間的レイアウトを指定するテキスト命令を無視している。
本稿では,イメージジェネレータの訓練や微調整を必要とせずに,ロバストなレイアウト制御を実現するシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T21:00:00Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。