論文の概要: Delta-K: Boosting Multi-Instance Generation via Cross-Attention Augmentation
- arxiv url: http://arxiv.org/abs/2603.10210v1
- Date: Tue, 10 Mar 2026 20:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.676777
- Title: Delta-K: Boosting Multi-Instance Generation via Cross-Attention Augmentation
- Title(参考訳): Delta-K: クロスアテンション拡張によるマルチインスタンス生成の強化
- Authors: Zitong Wang, Zijun Shen, Haohao Xu, Zhengjie Luo, Weibin Wu,
- Abstract要約: 拡散モデルはしばしば複雑なシーンを合成する際に概念の欠落に悩まされる。
本稿では,共有キー空間内で直接操作することで省略に対処する,バックボーンに依存しないプラグイン・アンド・プレイ推論フレームワークであるDelta-Kを提案する。
- 参考スコア(独自算出の注目度): 3.27529630826945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Diffusion Models excel in text-to-image synthesis, they often suffer from concept omission when synthesizing complex multi-instance scenes. Existing training-free methods attempt to resolve this by rescaling attention maps, which merely exacerbates unstructured noise without establishing coherent semantic representations. To address this, we propose Delta-K, a backbone-agnostic and plug-and-play inference framework that tackles omission by operating directly in the shared cross-attention Key space. Specifically, with Vision-language model, we extract a differential key $ΔK$ that encodes the semantic signature of missing concepts. This signal is then injected during the early semantic planning stage of the diffusion process. Governed by a dynamically optimized scheduling mechanism, Delta-K grounds diffuse noise into stable structural anchors while preserving existing concepts. Extensive experiments demonstrate the generality of our approach: Delta-K consistently improves compositional alignment across both modern DiT models and classical U-Net architectures, without requiring spatial masks, additional training, or architectural modifications.
- Abstract(参考訳): Diffusion Modelsはテキストと画像の合成に優れているが、複雑なマルチインスタンスシーンを合成する際には概念の欠落に悩まされることが多い。
既存のトレーニングフリーな手法では、コヒーレントな意味表現を確立することなく、非構造的ノイズを悪化させるアテンションマップを再スケーリングすることで、この問題を解決することができる。
これを解決するために、Delta-Kを提案する。Delta-Kは、共有キー空間で直接操作することで、省略に対処するバックボーンに依存しない、プラグアンドプレイ推論フレームワークである。
具体的には、視覚言語モデルを用いて、欠落した概念の意味的シグネチャを符号化する差分キー$ΔK$を抽出する。
このシグナルは拡散過程の初期の意味計画段階で注入される。
デルタ-Kは動的に最適化されたスケジューリング機構に支配され、既存の概念を保ちながら拡散ノイズを安定した構造アンカーに接地する。
Delta-Kは、空間マスク、追加トレーニング、アーキテクチャ修正を必要とせず、最新のDiTモデルと古典的なU-Netアーキテクチャの両方のコンポジションアライメントを一貫して改善します。
関連論文リスト
- UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations [45.861324782424326]
現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
論文 参考訳(メタデータ) (2026-03-11T12:14:26Z) - Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models [7.17300076441681]
SurgUnは、テキスト条件の拡散モデルで特定の視覚的概念を取り除くために、目標の重量空間更新を適用する外科的アンラーニング手法である。
我々のアプローチは、新たに獲得した記憶が以前の記憶へのアクセスを上書き、抑制、妨げることができるという、遡及的干渉理論によって動機付けられている。
我々は、この原理をレトロアクティブな概念干渉を誘導することにより拡散モデルに適用し、対象概念のみの集中的不安定化を可能にする。
論文 参考訳(メタデータ) (2026-03-01T08:07:14Z) - Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective [55.919842734983156]
CoSAは、共有された低次元セマンティック空間内で機能する転送可能なアタックフレームワークである。
CoSAは、最先端のトランスファー可能な攻撃を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T15:48:11Z) - Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration [24.85624444212476]
本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。
我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。
SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
論文 参考訳(メタデータ) (2025-05-16T21:27:38Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。