論文の概要: Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency
- arxiv url: http://arxiv.org/abs/2509.24514v1
- Date: Mon, 29 Sep 2025 09:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.89803
- Title: Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency
- Title(参考訳): 量とレイアウトの整合性を考慮したマルチオブジェクト画像編集指導
- Authors: Jiaqi Tan, Fangyu Li, Yang Liu,
- Abstract要約: QL-Adapterは、オブジェクトカウントと空間レイアウトの実施、さまざまなカテゴリの調整という2つの課題に取り組む、複数のオブジェクト編集のためのフレームワークである。
QL-Datasetは幅広いカテゴリ、レイアウト、カウントのバリエーションにまたがるベンチマークで、量とレイアウト一貫性のあるイメージ編集(QL-Edit)のタスクを定義しています。
- 参考スコア(独自算出の注目度): 9.830560486707878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction driven image editing with standard CLIP text encoders often fails in complex scenes with many objects. We present QL-Adapter, a framework for multiple object editing that tackles two challenges: enforcing object counts and spatial layouts, and accommodating diverse categories. QL-Adapter consists of two core modules: the Image-Layout Fusion Module (ILFM) and the Cross-Modal Augmentation Module (CMAM). ILFM fuses layout priors with ViT patch tokens from the CLIP image encoder to strengthen spatial structure understanding. CMAM injects image features into the text branch to enrich textual embeddings and improve instruction following. We further build QL-Dataset, a benchmark that spans broad category, layout, and count variations, and define the task of quantity and layout consistent image editing (QL-Edit). Extensive experiments show that QL-Adapter achieves state of the art performance on QL-Edit and significantly outperforms existing models.
- Abstract(参考訳): 標準的なCLIPテキストエンコーダによるインストラクション駆動の画像編集は、多くのオブジェクトを持つ複雑なシーンで失敗することが多い。
QL-Adapterは、オブジェクトカウントと空間レイアウトの実施、さまざまなカテゴリの調整という2つの課題に対処する、複数のオブジェクト編集のためのフレームワークである。
QL-Adapterは、Image-Layout Fusion Module (ILFM)とCross-Modal Augmentation Module (CMAM)の2つのコアモジュールで構成されている。
ILFMは、空間構造理解を強化するために、CLIPイメージエンコーダからViTパッチトークンでレイアウト先を融合する。
CMAMはテキストブランチにイメージ機能を注入して、テキストの埋め込みを強化し、指示に従うように改善する。
さらに、幅広いカテゴリ、レイアウト、カウントのバリエーションにまたがるベンチマークであるQL-Datasetを構築し、量とレイアウト一貫性のあるイメージ編集(QL-Edit)のタスクを定義します。
大規模な実験によると、QL-AdapterはQL-Editで最先端のパフォーマンスを実現し、既存のモデルを大幅に上回っている。
関連論文リスト
- MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks [46.87912659985628]
MultiEditは、107K以上の高品質の画像編集サンプルを備えた包括的なデータセットである。
18の非スタイルの編集タイプと38のスタイルの転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含んでいる。
我々は、2つのマルチモーダル大言語モデル(MLLM)を用いて視覚適応的な編集命令を生成する新しいデータセット構築パイプラインを用いる。
論文 参考訳(メタデータ) (2025-09-18T05:33:38Z) - Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing [53.197392152109636]
DIM-T2I(Draw-In-Mind:Draw-In-Mind:DIM)と、GPT-4oが生成した233Kのチェーン・オブ・シンジケーションからなるDIM-Edit(DIM-Edit)という2つの補完的なサブセットからなるデータセットを紹介し、画像編集のための明示的な設計青写真として機能する。
DIM-4.6B-T2I/Edit は ImgEdit や GEdit-Bench のベンチマークにおいて、UniWorld-V1 や Step1X-Edit など、はるかに大きなモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-02T06:06:52Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Improving Editability in Image Generation with Layer-wise Memory [23.004027029130953]
現在の編集アプローチは、主に単一オブジェクトの修正用に設計されており、シーケンシャルな編集に苦労している。
新しい要素を自然に統合しながら、既存のコンテンツを保存する粗いマスク入力を実現することを提案する。
我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
論文 参考訳(メタデータ) (2025-05-02T07:36:49Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。