論文の概要: Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2506.18226v1
- Date: Mon, 23 Jun 2025 01:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.81475
- Title: Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation
- Title(参考訳): 効果的に - 自己回帰画像生成のための動的スパース注意-
- Authors: Xunzhi Xiang, Qi Fan,
- Abstract要約: 適応動的スパース注意(adaptive Dynamic Sparse Attention, ADSA)と呼ばれる新しい学習自由コンテキスト最適化手法を提案する。
ADSAは、局所的なテクスチャの整合性を維持するのに欠かせない歴史的トークンと、グローバルなセマンティック・コヒーレンスを確保するのに欠かせないトークンを特定し、効率的に注意を合理化する。
また、ADSAに適した動的KV-cache更新機構を導入し、推論中のGPUメモリ消費量を約50%削減する。
- 参考スコア(独自算出の注目度): 8.624395048491275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive conditional image generation models have emerged as a dominant paradigm in text-to-image synthesis. These methods typically convert images into one-dimensional token sequences and leverage the self-attention mechanism, which has achieved remarkable success in natural language processing, to capture long-range dependencies, model global context, and ensure semantic coherence. However, excessively long contexts during inference lead to significant memory overhead caused by KV-cache and computational delays. To alleviate these challenges, we systematically analyze how global semantics, spatial layouts, and fine-grained textures are formed during inference, and propose a novel training-free context optimization method called Adaptive Dynamic Sparse Attention (ADSA). Conceptually, ADSA dynamically identifies historical tokens crucial for maintaining local texture consistency and those essential for ensuring global semantic coherence, thereby efficiently streamlining attention computation. Additionally, we introduce a dynamic KV-cache update mechanism tailored for ADSA, reducing GPU memory consumption during inference by approximately $50\%$. Extensive qualitative and quantitative experiments demonstrate the effectiveness and superiority of our approach in terms of both generation quality and resource efficiency.
- Abstract(参考訳): 自動回帰条件画像生成モデルは、テキスト・画像合成において支配的なパラダイムとして登場してきた。
これらの手法は通常、画像を1次元のトークンシーケンスに変換し、自然言語処理で顕著な成功を収めた自己認識メカニズムを活用して、長距離依存を捉え、グローバルなコンテキストをモデル化し、セマンティックコヒーレンスを確保する。
しかしながら、推論中の過度に長いコンテキストは、KVキャッシュと計算遅延によって引き起こされるメモリオーバーヘッドを著しく引き起こす。
これらの課題を緩和するために、我々は、推論中にグローバルセマンティクス、空間配置、きめ細かいテクスチャがどのように形成されるかを体系的に分析し、適応動的スパース注意(ADSA)と呼ばれる新しい学習自由コンテキスト最適化手法を提案する。
概念的には、ADSAは局所的なテクスチャ一貫性を維持するのに不可欠な歴史的トークンと、グローバルなセマンティックコヒーレンスを確保するのに不可欠なトークンを動的に識別し、アテンション計算を効率的に合理化する。
さらに,ADSAに適した動的KVキャッシュ更新機構を導入し,推論時のGPUメモリ消費量を約50\%削減する。
大規模定性的かつ定量的な実験は、生成品質と資源効率の両方の観点から、我々のアプローチの有効性と優位性を実証している。
関連論文リスト
- Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。
本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。
提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-31T09:29:21Z) - CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [31.783117836434403]
動的シーンにおける新しいビュー合成(NVS)の現在の手法は、メモリ消費の管理、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。
本稿では,これらの問題に対処するために,連続的動的ニューラルネットワークプリミティブ(CD-NGP)を提案する。
提案手法は,メモリオーバーヘッドを低減するために連続学習フレームワークを活用するとともに,時間的および空間的なハッシュエンコーディングの異なる特徴を統合し,高いレンダリング品質を実現する。
論文 参考訳(メタデータ) (2024-09-08T17:35:48Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。