論文の概要: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- arxiv url: http://arxiv.org/abs/2505.00751v1
- Date: Thu, 01 May 2025 03:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.772018
- Title: InstructAttribute: Fine-grained Object Attributes editing with Instruction
- Title(参考訳): InstructAttribute: Instructionによる微粒なオブジェクト属性編集
- Authors: Xingxi Yin, Jingfeng Zhang, Zhi Li, Yicheng Li, Yin Zhang,
- Abstract要約: 構造保存・属性増幅(Structure-Preserving and Attribute Amplification、SPAA)は、物体の色や物質の変化を正確に制御する訓練のない方法である。
InstructAttributeは,カラー属性や素材属性のきめ細かい編集を容易にするために設計された命令ベースモデルである。
提案手法は,オブジェクトレベルの色や素材の編集において,既存の命令ベースの画像編集手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 18.878035317103834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) diffusion models, renowned for their advanced generative abilities, are extensively utilized in image editing applications, demonstrating remarkable effectiveness. However, achieving precise control over fine-grained attributes still presents considerable challenges. Existing image editing techniques either fail to modify the attributes of an object or struggle to preserve its structure and maintain consistency in other areas of the image. To address these challenges, we propose the Structure-Preserving and Attribute Amplification (SPAA), a training-free method which enables precise control over the color and material transformations of objects by editing the self-attention maps and cross-attention values. Furthermore, we constructed the Attribute Dataset, which encompasses nearly all colors and materials associated with various objects, by integrating multimodal large language models (MLLM) to develop an automated pipeline for data filtering and instruction labeling. Training on this dataset, we present our InstructAttribute, an instruction-based model designed to facilitate fine-grained editing of color and material attributes. Extensive experiments demonstrate that our method achieves superior performance in object-level color and material editing, outperforming existing instruction-based image editing approaches.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルはその高度な生成能力で知られており、画像編集アプリケーションで広く利用されている。
しかし、きめ細かい属性を正確に制御することはまだかなりの課題である。
既存の画像編集技術は、オブジェクトの属性を変更するのに失敗するか、その構造を維持し、画像の他の領域で一貫性を維持するのに苦労する。
これらの課題に対処するために,自己注意マップと交差注意値の編集により,オブジェクトの色や物質変換を正確に制御できる学習不要なSPAA(Structure-Preserving and Attribute Amplification)を提案する。
さらに,MLLM(Multimodal large language model)を統合し,データフィルタリングと命令ラベリングのための自動パイプラインを構築することで,さまざまなオブジェクトに関連するほぼすべての色や素材を包含する属性データセットを構築した。
InstructAttributeは,色や材料属性のきめ細かい編集を容易にするために設計されたインストラクションベースモデルである。
広汎な実験により,本手法は既存の命令ベース画像編集手法よりも優れ,オブジェクトレベルの色や素材の編集において優れた性能を発揮することが示された。
関連論文リスト
- BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - InsightEdit: Towards Better Instruction Following for Image Editing [12.683378605956024]
InstructPix2Pix, InstructDiffusion, SmartEditといった以前の作業では、エンドツーエンドの編集が検討されている。
MLLM(Multimodal Large Language Models)によるテキスト的特徴と視覚的特徴の両方を利用した2ストリームブリッジ機構を提案する。
InsightEditは,従来の画像との背景の整合性を保ちながら,複雑な命令の追従に優れ,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-26T11:11:10Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping [31.026083872774834]
ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。
PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-06-03T04:43:56Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。