論文の概要: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- arxiv url: http://arxiv.org/abs/2505.00751v2
- Date: Mon, 23 Jun 2025 13:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.293495
- Title: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- Title(参考訳): InstructAttribute: Instructionによる微粒なオブジェクト属性編集
- Authors: Xingxi Yin, Jingfeng Zhang, Yue Deng, Zhi Li, Yicheng Li, Yin Zhang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは画像編集において強力な生成能力のために広く利用されている。
本研究では,新しいトレーニングフリーフレームワークであるStructure Preservation and Attribute Amplification (SPAA)を紹介した。
InstructAttributeは,自然言語のプロンプトによる細粒度およびオブジェクトレベルの属性の編集を可能にする命令調整モデルである。
- 参考スコア(独自算出の注目度): 19.313435460021687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) diffusion models are widely used in image editing due to their powerful generative capabilities. However, achieving fine-grained control over specific object attributes, such as color and material, remains a considerable challenge. Existing methods often fail to accurately modify these attributes or compromise structural integrity and overall image consistency. To fill this gap, we introduce Structure Preservation and Attribute Amplification (SPAA), a novel training-free framework that enables precise generation of color and material attributes for the same object by intelligently manipulating self-attention maps and cross-attention values within diffusion models. Building on SPAA, we integrate multi-modal large language models (MLLMs) to automate data curation and instruction generation. Leveraging this object attribute data collection engine, we construct the Attribute Dataset, encompassing a comprehensive range of colors and materials across diverse object categories. Using this generated dataset, we propose InstructAttribute, an instruction-tuned model that enables fine-grained and object-level attribute editing through natural language prompts. This capability holds significant practical implications for diverse fields, from accelerating product design and e-commerce visualization to enhancing virtual try-on experiences. Extensive experiments demonstrate that InstructAttribute outperforms existing instruction-based baselines, achieving a superior balance between attribute modification accuracy and structural preservation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは画像編集において強力な生成能力のために広く利用されている。
しかし、色や素材などの特定のオブジェクト属性のきめ細かい制御を実現することは、依然として大きな課題である。
既存の手法では、これらの属性を正確に修正したり、構造的整合性と全体像の整合性を損なうことがしばしばある。
このギャップを埋めるために、我々は、拡散モデル内の自己アテンションマップと交差アテンション値をインテリジェントに操作することにより、同一オブジェクトに対する色と材料属性の正確な生成を可能にする、新しいトレーニングフリーフレームワークである、Structure Preservation and Attribute Amplification (SPAA)を導入する。
SPAAをベースとしたマルチモーダル大言語モデル(MLLM)を統合し,データキュレーションと命令生成を自動化する。
このオブジェクト属性データ収集エンジンを活用して、さまざまなオブジェクトカテゴリにまたがる包括的な色や材料を含む属性データセットを構築します。
InstructAttributeは、自然言語のプロンプトによる微粒化とオブジェクトレベルの属性の編集を可能にする命令調整モデルである。
この能力は、製品設計の加速やeコマースの可視化、バーチャルな試行体験の強化など、さまざまな分野において重要な実践的意味を持つ。
広範な実験により、InstructAttributeは既存の命令ベースのベースラインよりも優れており、属性修正精度と構造保存のバランスが優れていることが示されている。
関連論文リスト
- Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.46250297408974]
オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。
ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。
パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2025-03-24T21:00:37Z) - BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models [112.94440113631897]
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとする。
スタイル」は、テクスチャ、色、芸術的要素を含む広い概念であるが、照明や動力学など他の重要な要素をカバーしていない。
画像の美学を特定の視覚属性に分解するより効果的なアプローチを定式化し、ユーザーは異なる画像から照明、テクスチャ、ダイナミックスなどの特徴を適用できる。
論文 参考訳(メタデータ) (2024-12-10T17:02:58Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - InsightEdit: Towards Better Instruction Following for Image Editing [12.683378605956024]
InstructPix2Pix, InstructDiffusion, SmartEditといった以前の作業では、エンドツーエンドの編集が検討されている。
MLLM(Multimodal Large Language Models)によるテキスト的特徴と視覚的特徴の両方を利用した2ストリームブリッジ機構を提案する。
InsightEditは,従来の画像との背景の整合性を保ちながら,複雑な命令の追従に優れ,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-26T11:11:10Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping [31.026083872774834]
ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。
PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-06-03T04:43:56Z) - Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - Learning Dynamic Attribute-factored World Models for Efficient
Multi-object Reinforcement Learning [6.447052211404121]
多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。
最近の研究は、サンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。
本稿では、動的属性FacTored RL(DAFT-RL)フレームワークを導入し、オブジェクト属性の係数化の利点を利用する。
論文 参考訳(メタデータ) (2023-07-18T12:41:28Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Learning to Infer Unseen Attribute-Object Compositions [55.58107964602103]
単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。