論文の概要: Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2504.04784v1
- Date: Mon, 07 Apr 2025 07:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:12.464986
- Title: Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing
- Title(参考訳): 並列マルチインストラクション誘導画像編集における拡散変換器のディペンタングインストラクションの影響
- Authors: Hui Liu, Bin Zou, Suiyun Zhang, Kecheng Chen, Rui Liu, Haoliang Li,
- Abstract要約: Instruction Influence Disentanglement (IID) は,複数命令の並列実行を可能にする新しいフレームワークである。
我々は、DiTにおける自己注意機構を分析し、各命令の影響を解消するために、命令固有の注意マスクを導出する。
IIDは、既存のベースラインと比較して、忠実度と命令完了性を改善しながら拡散ステップを削減する。
- 参考スコア(独自算出の注目度): 26.02149948089938
- License:
- Abstract: Instruction-guided image editing enables users to specify modifications using natural language, offering more flexibility and control. Among existing frameworks, Diffusion Transformers (DiTs) outperform U-Net-based diffusion models in scalability and performance. However, while real-world scenarios often require concurrent execution of multiple instructions, step-by-step editing suffers from accumulated errors and degraded quality, and integrating multiple instructions with a single prompt usually results in incomplete edits due to instruction conflicts. We propose Instruction Influence Disentanglement (IID), a novel framework enabling parallel execution of multiple instructions in a single denoising process, designed for DiT-based models. By analyzing self-attention mechanisms in DiTs, we identify distinctive attention patterns in multi-instruction settings and derive instruction-specific attention masks to disentangle each instruction's influence. These masks guide the editing process to ensure localized modifications while preserving consistency in non-edited regions. Extensive experiments on open-source and custom datasets demonstrate that IID reduces diffusion steps while improving fidelity and instruction completion compared to existing baselines. The codes will be publicly released upon the acceptance of the paper.
- Abstract(参考訳): インストラクション誘導画像編集により、ユーザーは自然言語を使って修正を指定でき、柔軟性と制御性を高めることができる。
既存のフレームワークの中で、Diffusion Transformer (DiT) は拡張性と性能においてU-Netベースの拡散モデルより優れている。
しかし、現実のシナリオでは複数の命令を同時に実行する必要があることが多いが、ステップバイステップの編集はエラーの蓄積と品質の低下に悩まされ、1つのプロンプトと複数の命令を統合すると、通常は命令の衝突による不完全な編集が発生する。
Instruction Influence Disentanglement (IID, Instruction Influence Disentanglement) を提案する。
DiTにおける自己注意機構を解析することにより、多指導設定における特徴的注意パターンを特定し、命令固有の注意マスクを導出し、各命令の影響を解き放つ。
これらのマスクは編集プロセスをガイドし、非編集領域における一貫性を維持しながら、局所的な修正を保証する。
オープンソースおよびカスタムデータセットに関する大規模な実験により、IIDは既存のベースラインに比べて忠実度と命令完了性を改善しながら拡散ステップを減少させることが示された。
コードは、論文の受理後、公表される。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing [24.316956641791034]
拡散型編集システムのためのゼロショット推論パイプラインを提案する。
入力命令を特定の命令に分解するために,大言語モデル (LLM) を用いる。
我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高めます。
論文 参考訳(メタデータ) (2024-07-29T17:59:57Z) - InstructEdit: Instruction-based Knowledge Editing for Large Language Models [39.2147118489123]
InstructEditと呼ばれる命令ベースの編集技術を開発し、簡単な命令を使って様々なタスクパフォーマンスへのエディタの適応を容易にする。
予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-25T15:46:33Z) - DECap: Towards Generalized Explicit Caption Editing via Diffusion
Mechanism [17.03837136771538]
本稿ではDiffusion-based Explicit Caption editing method: DECapを提案する。
我々はECEタスクを拡散機構の下でのデノナイズプロセスとして再構成する。
復調処理は、編集操作と対応するコンテンツワードの明示的な予測を含む。
論文 参考訳(メタデータ) (2023-11-25T03:52:03Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。
UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。
提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T12:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。