論文の概要: InstanceGen: Image Generation with Instance-level Instructions
- arxiv url: http://arxiv.org/abs/2505.05678v2
- Date: Mon, 12 May 2025 20:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 12:30:10.426726
- Title: InstanceGen: Image Generation with Instance-level Instructions
- Title(参考訳): InstanceGen: インスタンスレベルのインストラクションによる画像生成
- Authors: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor,
- Abstract要約: 本稿では,この画像に基づく構造ガイダンスとLLMに基づくインスタンスレベルの命令を併用する手法を提案する。
結果: 画像は、オブジェクトカウント、インスタンスレベルの属性、インスタンス間の空間的関係を含む、テキストプロンプトのすべての部分に準拠します。
- 参考スコア(独自算出の注目度): 10.973717263041074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.
- Abstract(参考訳): 生成モデルの能力の急速な進歩にもかかわらず、事前訓練されたテキスト・ツー・イメージモデルは、複数のオブジェクトとインスタンスレベルの属性を合成する複雑なプロンプトによって伝達されるセマンティクスの取得に苦慮している。
その結果、我々は、通常、粗いバウンディングボックスの形で、追加の構造的制約を統合することで、このような困難なケースにおける生成プロセスをより良くガイドする関心が高まっているのを目撃している。
本研究では,現代画像生成モデルが,より微細な構造初期化を直接実現可能であることを観察することによって,構造的ガイダンスの考え方をさらに進める。
本稿では、この画像に基づく構造的ガイダンスをLLMベースのインスタンスレベルの命令と組み合わせ、オブジェクトカウント、インスタンスレベルの属性、インスタンス間の空間的関係を含む、テキストプロンプトのすべての部分に準拠した出力画像を生成する手法を提案する。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。
本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。
得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文 参考訳(メタデータ) (2025-02-19T21:30:51Z) - LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations [18.728541981438216]
既存のテキスト・トゥ・イメージ(T2I)モデルは、複数のオブジェクトと複雑な関係を含む合成画像生成において、劣化した性能を示す。
シーングラフの高品質な構造アノテーションを備えた大規模データセットであるLAION-SGを構築した。
合成画像生成のモデルを評価するベンチマークであるCompSG-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-12-11T17:57:10Z) - Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - Object-Centric Relational Representations for Image Generation [18.069747511100132]
本稿では,オブジェクト中心のリレーショナル表現に基づく条件画像生成手法を提案する。
このようなアーキテクチャバイアスには,生成過程の操作と条件付けを容易にする特性が伴うことを示す。
また,関係表現と組み合わせた画像の合成データセットからなる画像生成のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-26T11:17:17Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。