論文の概要: Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling
- arxiv url: http://arxiv.org/abs/2507.16240v1
- Date: Tue, 22 Jul 2025 05:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.973876
- Title: Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling
- Title(参考訳): インストラクションをスケールする:自己適応型アテンションスケーリングによる統一画像生成モデルのインストラクション追従忠実度を高める
- Authors: Chao Zhou, Tianyi Wei, Nenghai Yu,
- Abstract要約: OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
- 参考スコア(独自算出の注目度): 54.54513714247062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in unified image generation models, such as OmniGen, have enabled the handling of diverse image generation and editing tasks within a single framework, accepting multimodal, interleaved texts and images in free form. This unified architecture eliminates the need for text encoders, greatly reducing model complexity and standardizing various image generation and editing tasks, making it more user-friendly. However, we found that it suffers from text instruction neglect, especially when the text instruction contains multiple sub-instructions. To explore this issue, we performed a perturbation analysis on the input to identify critical steps and layers. By examining the cross-attention maps of these key steps, we observed significant conflicts between neglected sub-instructions and the activations of the input image. In response, we propose Self-Adaptive Attention Scaling (SaaS), a method that leverages the consistency of cross-attention between adjacent timesteps to dynamically scale the attention activation for each sub-instruction. Our SaaS enhances instruction-following fidelity without requiring additional training or test-time optimization. Experimental results on instruction-based image editing and visual conditional image generation validate the effectiveness of our SaaS, showing superior instruction-following fidelity over existing methods. The code is available https://github.com/zhouchao-ops/SaaS.
- Abstract(参考訳): OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能となり、マルチモーダルでインターリーブされたテキストと画像を自由な形式で受け入れるようになった。
この統一されたアーキテクチャは、テキストエンコーダの必要性を排除し、モデルの複雑さを大幅に減らし、様々な画像生成および編集タスクを標準化し、よりユーザフレンドリーにする。
しかし、テキスト命令が複数のサブインストラクションを含む場合、特にテキスト命令の無視に悩まされていることがわかった。
この問題を探るため,我々は重要なステップとレイヤを特定するために,入力の摂動解析を行った。
これらの重要なステップの相互注意マップを調べることで、無視されたサブインストラクションと入力画像のアクティベーションとの間に大きな衝突が見られた。
そこで本研究では,各サブインストラクションに対するアテンションアクティベーションを動的にスケールするために,隣接する時間ステップ間のクロスアテンションの一貫性を活用する手法であるセルフアダプティブアテンションスケーリング(SaaS)を提案する。
私たちのSaaSは、追加のトレーニングやテストタイムの最適化を必要とせずに、命令追従の忠実さを高めます。
インストラクションベースの画像編集と視覚条件画像生成の実験結果から,SaaSの有効性を検証し,既存の手法よりも優れたインストラクション追従忠実度を示した。
コードはhttps://github.com/zhouchao-ops/SaaSで入手できる。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。