論文の概要: Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping
- arxiv url: http://arxiv.org/abs/2602.06850v1
- Date: Fri, 06 Feb 2026 16:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.488319
- Title: Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping
- Title(参考訳): マルチコンディションDiTの再考:位置アライメントとキーワードスコーピングによる冗長注意の排除
- Authors: Chao Zhou, Tianyi Wei, Yiling Chen, Wenbo Zhou, Nenghai Yu,
- Abstract要約: マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
- 参考スコア(独自算出の注目度): 61.459927600301654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern text-to-image models excel at prompt-based generation, they often lack the fine-grained control necessary for specific user requirements like spatial layouts or subject appearances. Multi-condition control addresses this, yet its integration into Diffusion Transformers (DiTs) is bottlenecked by the conventional ``concatenate-and-attend'' strategy, which suffers from quadratic computational and memory overhead as the number of conditions scales. Our analysis reveals that much of this cross-modal interaction is spatially or semantically redundant. To this end, we propose Position-aligned and Keyword-scoped Attention (PKA), a highly efficient framework designed to eliminate these redundancies. Specifically, Position-Aligned Attention (PAA) linearizes spatial control by enforcing localized patch alignment, while Keyword-Scoped Attention (KSA) prunes irrelevant subject-driven interactions via semantic-aware masking. To facilitate efficient learning, we further introduce a Conditional Sensitivity-Aware Sampling (CSAS) strategy that reweights the training objective towards critical denoising phases, drastically accelerating convergence and enhancing conditional fidelity. Empirically, PKA delivers a 10.0$\times$ inference speedup and a 5.1$\times$ VRAM saving, providing a scalable and resource-friendly solution for high-fidelity multi-conditioned generation.
- Abstract(参考訳): 現代のテキスト画像モデルは、プロンプトベースの生成では優れているが、空間レイアウトや被写体外観のような特定のユーザー要求に必要とされる細かい制御を欠いていることが多い。
マルチ条件制御はこれに対処するが、Diffusion Transformer (DiTs) への統合は、条件の数が拡大するにつれて2次計算とメモリオーバーヘッドに悩まされる従来の 'concatenate-and-attend'' 戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
そこで本研究では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
具体的には、位置アライメントアテンション(PAA)は局所的なパッチアライメントを強制することで空間制御を線形化し、キーワードスコープアテンション(KSA)はセマンティック・アウェア・マスキングを介して無関係な主観的相互作用を誘発する。
効率的な学習を容易にするために,我々はさらに,学習目標をクリティカル・デノナイジング・フェーズに向けて重み付けし,コンバージェンスを劇的に加速し,条件の忠実度を高めるコンディショナリ・センシティ・アウェア・サンプリング(CSAS)戦略を導入する。
実証的には、PKAは10.0$\times$推論スピードアップと5.1$\times$VRAMセーブを提供し、高忠実なマルチコンディション生成のためのスケーラブルでリソースフレンドリーなソリューションを提供する。
関連論文リスト
- MEIC-DT: Memory-Efficient Incremental Clustering for Long-Text Coreference Resolution with Dual-Threshold Constraints [42.81232562487108]
textbfMEIC-DTは、軽量トランスフォーマーに基づくメモリ効率の高いインクリメンタルクラスタリングアプローチである。
本稿では,MEIC-DTがメモリ制約下で高い競合性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-31T08:26:34Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Adaptive Learning for IRS-Assisted Wireless Networks: Securing Opportunistic Communications Against Byzantine Eavesdroppers [7.256056777973974]
ビザンチン耐性スペクトルセンシングとセキュアインテリジェント反射面(IRS)のための共同学習フレームワークを提案する。
本研究では,局所曲率の緩やかな速度で,予測更新と証明可能なサブ線形収束を提供する拡張ラグランジアン交互化アルゴリズムを開発した。
多様なネットワーク条件のシミュレーションでは、敵攻撃時の固定偽アラームレートの検出確率が高く、正直なユーザに対する総和MSEの大幅な削減、盗聴信号の強い抑制、高速収束が示される。
論文 参考訳(メタデータ) (2025-08-11T17:28:25Z) - CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning [0.0]
本稿では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。
CSATは、特に時間的冗長度が高いビデオや、モーダルな接地度が低い言語において、視覚的およびテキスト的表現が本質的に圧縮可能であることを生かしている。
論文 参考訳(メタデータ) (2025-06-30T02:11:20Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。