論文の概要: Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective
- arxiv url: http://arxiv.org/abs/2507.01652v1
- Date: Wed, 02 Jul 2025 12:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.228867
- Title: Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective
- Title(参考訳): 線形複雑度を考慮した自己回帰画像生成:空間的認識の減少の視点から
- Authors: Yuxin Mao, Zhen Qin, Jinxing Zhou, Hui Deng, Xuyang Shen, Bin Fan, Jing Zhang, Yiran Zhong, Yuchao Dai,
- Abstract要約: 本稿では,線形複雑性を伴う空間コンテキストに選択的に注目する自己回帰画像生成装置LASADGenを提案する。
ImageNetの実験では、LASADGenは最先端の画像生成性能と計算効率を達成する。
- 参考スコア(独自算出の注目度): 47.87649021414188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) models have garnered significant attention in image generation for their ability to effectively capture both local and global structures within visual data. However, prevalent AR models predominantly rely on the transformer architectures, which are beset by quadratic computational complexity concerning input sequence length and substantial memory overhead due to the necessity of maintaining key-value caches. Although linear attention mechanisms have successfully reduced this burden in language models, our initial experiments reveal that they significantly degrade image generation quality because of their inability to capture critical long-range dependencies in visual data. We propose Linear Attention with Spatial-Aware Decay (LASAD), a novel attention mechanism that explicitly preserves genuine 2D spatial relationships within the flattened image sequences by computing position-dependent decay factors based on true 2D spatial location rather than 1D sequence positions. Based on this mechanism, we present LASADGen, an autoregressive image generator that enables selective attention to relevant spatial contexts with linear complexity. Experiments on ImageNet show LASADGen achieves state-of-the-art image generation performance and computational efficiency, bridging the gap between linear attention's efficiency and spatial understanding needed for high-quality generation.
- Abstract(参考訳): オートレグレッシブ(AR)モデルは、視覚データ内の局所構造とグローバル構造の両方を効果的に捉えることができるため、画像生成において大きな注目を集めている。
しかし、一般的なARモデルはトランスフォーマーアーキテクチャに大きく依存しており、入力シーケンスの長さとキーバリューキャッシュを維持する必要によるメモリオーバーヘッドに関する2次計算の複雑さによって実現されている。
線形アテンション機構は言語モデルにおいてこの負担を軽減することに成功しているが、初期の実験では、視覚データにおける重要な長距離依存を捕捉できないため、画像生成の品質が著しく低下していることが判明した。
1次元の配列位置ではなく、真の2次元の空間位置に基づいて位置依存の減衰因子を演算することにより、平坦化画像列内の真の2次元空間関係を明示的に保存する新しい注意機構である、空間認識決定付き線形注意機構(LASAD)を提案する。
この機構に基づいて,線形複雑性を伴う空間コンテキストに選択的に注目する自己回帰画像生成装置LASADGenを提案する。
ImageNetの実験では、LASADGenは、高品質な生成に必要な線形注意の効率と空間的理解のギャップを埋め、最先端の画像生成性能と計算効率を達成する。
関連論文リスト
- Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation [8.624395048491275]
適応動的スパース注意(adaptive Dynamic Sparse Attention, ADSA)と呼ばれる新しい学習自由コンテキスト最適化手法を提案する。
ADSAは、局所的なテクスチャの整合性を維持するのに欠かせない歴史的トークンと、グローバルなセマンティック・コヒーレンスを確保するのに欠かせないトークンを特定し、効率的に注意を合理化する。
また、ADSAに適した動的KV-cache更新機構を導入し、推論中のGPUメモリ消費量を約50%削減する。
論文 参考訳(メタデータ) (2025-06-23T01:27:06Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Ripple Attention for Visual Perception with Sub-quadratic Complexity [7.425337104538644]
トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
論文 参考訳(メタデータ) (2021-10-06T02:00:38Z) - Grid Partitioned Attention: Efficient TransformerApproximation with
Inductive Bias for High Resolution Detail Generation [3.4373727078460665]
本稿では,GPA (Grid Partitioned Attention) を提案する。
本稿では,新しいアテンション層を導入し,その複雑さと,メモリ使用量とモデルパワーとのトレードオフの調整方法について分析する。
我々の貢献は、(i)新しいGPA層のアルゴリズムとコード1、(ii)新しい注目コピーアーキテクチャ、(iii)人間のポーズモーフィング生成ベンチマークにおける新しい最先端の実験結果である。
論文 参考訳(メタデータ) (2021-07-08T10:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。