論文の概要: LINA: Linear Autoregressive Image Generative Models with Continuous Tokens
- arxiv url: http://arxiv.org/abs/2601.22630v1
- Date: Fri, 30 Jan 2026 06:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.276649
- Title: LINA: Linear Autoregressive Image Generative Models with Continuous Tokens
- Title(参考訳): LINA:連続トークンを用いた線形自己回帰画像生成モデル
- Authors: Jiahao Wang, Ting Pan, Haoge Deng, Dongchen Han, Taiqiang Wu, Xinlong Wang, Ping Luo,
- Abstract要約: 連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
- 参考スコア(独自算出の注目度): 56.80443965097921
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive models with continuous tokens form a promising paradigm for visual generation, especially for text-to-image (T2I) synthesis, but they suffer from high computational cost. We study how to design compute-efficient linear attention within this framework. Specifically, we conduct a systematic empirical analysis of scaling behavior with respect to parameter counts under different design choices, focusing on (1) normalization paradigms in linear attention (division-based vs. subtraction-based) and (2) depthwise convolution for locality augmentation. Our results show that although subtraction-based normalization is effective for image classification, division-based normalization scales better for linear generative transformers. In addition, incorporating convolution for locality modeling plays a crucial role in autoregressive generation, consistent with findings in diffusion models. We further extend gating mechanisms, commonly used in causal linear attention, to the bidirectional setting and propose a KV gate. By introducing data-independent learnable parameters to the key and value states, the KV gate assigns token-wise memory weights, enabling flexible memory management similar to forget gates in language models. Based on these findings, we present LINA, a simple and compute-efficient T2I model built entirely on linear attention, capable of generating high-fidelity 1024x1024 images from user instructions. LINA achieves competitive performance on both class-conditional and T2I benchmarks, obtaining 2.18 FID on ImageNet (about 1.4B parameters) and 0.74 on GenEval (about 1.5B parameters). A single linear attention module reduces FLOPs by about 61 percent compared to softmax attention. Code and models are available at: https://github.com/techmonsterwang/LINA.
- Abstract(参考訳): 連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成において有望なパラダイムを形成するが、高い計算コストに悩まされる。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
具体的には,(1)線形注意における正規化パラダイム(ディビジョンベースとサブトラクションベース)と(2)局所性向上のための深層的畳み込みに着目し,異なる設計選択下でのパラメータ数に対するスケーリング行動の系統的実証分析を行う。
その結果, 減算ベース正規化は画像分類に有効であるが, 分割ベース正規化は線形生成変換器に有効であることがわかった。
さらに、局所性モデリングのための畳み込みを組み込むことは、拡散モデルにおける発見と一致する自己回帰生成において重要な役割を担っている。
我々はさらに、因果線形注意によく用いられるゲーティング機構を双方向設定に拡張し、KVゲートを提案する。
データに依存しない学習可能なパラメータをキーと値の状態に導入することにより、KVゲートはトークン単位のメモリ重み付けを割り当てる。
これらの知見に基づき、LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
LINAはクラス条件とT2Iベンチマークの両方で競合性能を達成し、ImageNetで2.18 FID(約1.4Bパラメータ)、GenEvalで0.74 FID(約1.5Bパラメータ)を得る。
単一の線形アテンションモジュールは、ソフトマックスアテンションに比べてFLOPを約61%削減する。
コードとモデルは、https://github.com/techmonsterwang/LINA.comで入手できる。
関連論文リスト
- Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。