論文の概要: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- arxiv url: http://arxiv.org/abs/2505.00751v2
- Date: Mon, 23 Jun 2025 13:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.293495
- Title: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- Title(参考訳): InstructAttribute: Instructionによる微粒なオブジェクト属性編集
- Authors: Xingxi Yin, Jingfeng Zhang, Yue Deng, Zhi Li, Yicheng Li, Yin Zhang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは画像編集において強力な生成能力のために広く利用されている。
本研究では,新しいトレーニングフリーフレームワークであるStructure Preservation and Attribute Amplification (SPAA)を紹介した。
InstructAttributeは,自然言語のプロンプトによる細粒度およびオブジェクトレベルの属性の編集を可能にする命令調整モデルである。
- 参考スコア(独自算出の注目度): 19.313435460021687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) diffusion models are widely used in image editing due to their powerful generative capabilities. However, achieving fine-grained control over specific object attributes, such as color and material, remains a considerable challenge. Existing methods often fail to accurately modify these attributes or compromise structural integrity and overall image consistency. To fill this gap, we introduce Structure Preservation and Attribute Amplification (SPAA), a novel training-free framework that enables precise generation of color and material attributes for the same object by intelligently manipulating self-attention maps and cross-attention values within diffusion models. Building on SPAA, we integrate multi-modal large language models (MLLMs) to automate data curation and instruction generation. Leveraging this object attribute data collection engine, we construct the Attribute Dataset, encompassing a comprehensive range of colors and materials across diverse object categories. Using this generated dataset, we propose InstructAttribute, an instruction-tuned model that enables fine-grained and object-level attribute editing through natural language prompts. This capability holds significant practical implications for diverse fields, from accelerating product design and e-commerce visualization to enhancing virtual try-on experiences. Extensive experiments demonstrate that InstructAttribute outperforms existing instruction-based baselines, achieving a superior balance between attribute modification accuracy and structural preservation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは画像編集において強力な生成能力のために広く利用されている。
しかし、色や素材などの特定のオブジェクト属性のきめ細かい制御を実現することは、依然として大きな課題である。
既存の手法では、これらの属性を正確に修正したり、構造的整合性と全体像の整合性を損なうことがしばしばある。
このギャップを埋めるために、我々は、拡散モデル内の自己アテンションマップと交差アテンション値をインテリジェントに操作することにより、同一オブジェクトに対する色と材料属性の正確な生成を可能にする、新しいトレーニングフリーフレームワークである、Structure Preservation and Attribute Amplification (SPAA)を導入する。
SPAAをベースとしたマルチモーダル大言語モデル(MLLM)を統合し,データキュレーションと命令生成を自動化する。
このオブジェクト属性データ収集エンジンを活用して、さまざまなオブジェクトカテゴリにまたがる包括的な色や材料を含む属性データセットを構築します。
InstructAttributeは、自然言語のプロンプトによる微粒化とオブジェクトレベルの属性の編集を可能にする命令調整モデルである。
この能力は、製品設計の加速やeコマースの可視化、バーチャルな試行体験の強化など、さまざまな分野において重要な実践的意味を持つ。
広範な実験により、InstructAttributeは既存の命令ベースのベースラインよりも優れており、属性修正精度と構造保存のバランスが優れていることが示されている。
関連論文リスト
- BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - InsightEdit: Towards Better Instruction Following for Image Editing [12.683378605956024]
InstructPix2Pix, InstructDiffusion, SmartEditといった以前の作業では、エンドツーエンドの編集が検討されている。
MLLM(Multimodal Large Language Models)によるテキスト的特徴と視覚的特徴の両方を利用した2ストリームブリッジ機構を提案する。
InsightEditは,従来の画像との背景の整合性を保ちながら,複雑な命令の追従に優れ,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-26T11:11:10Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping [31.026083872774834]
ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。
PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-06-03T04:43:56Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。