論文の概要: Direction-Aware Diagonal Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2503.11129v1
- Date: Fri, 14 Mar 2025 06:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.208002
- Title: Direction-Aware Diagonal Autoregressive Image Generation
- Title(参考訳): 方向認識型対角自己回帰画像生成
- Authors: Yijia Xu, Jianzhong Ju, Jian Luan, Jinshi Cui,
- Abstract要約: Direction-Aware Diagonal Autoregressive Image Generation (DAR) 法は、対角走査順序に従って画像トークンを生成する。
4D-RoPEと4D-RoPEの2つの方向対応モジュールが導入された。
DAR-XL (2.0B) は従来の自己回帰画像生成装置よりも優れており、最先端のFIDスコアは1.37である。
- 参考スコア(独自算出の注目度): 7.097549664846155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The raster-ordered image token sequence exhibits a significant Euclidean distance between index-adjacent tokens at line breaks, making it unsuitable for autoregressive generation. To address this issue, this paper proposes Direction-Aware Diagonal Autoregressive Image Generation (DAR) method, which generates image tokens following a diagonal scanning order. The proposed diagonal scanning order ensures that tokens with adjacent indices remain in close proximity while enabling causal attention to gather information from a broader range of directions. Additionally, two direction-aware modules: 4D-RoPE and direction embeddings are introduced, enhancing the model's capability to handle frequent changes in generation direction. To leverage the representational capacity of the image tokenizer, we use its codebook as the image token embeddings. We propose models of varying scales, ranging from 485M to 2.0B. On the 256$\times$256 ImageNet benchmark, our DAR-XL (2.0B) outperforms all previous autoregressive image generators, achieving a state-of-the-art FID score of 1.37.
- Abstract(参考訳): ラスター順序画像トークンシーケンスは、線分におけるインデックス隣接トークン間の有意なユークリッド距離を示すため、自己回帰生成には適さない。
そこで本研究では,方向認識型対角自己回帰画像生成(DAR)手法を提案し,対角走査順序に従って画像トークンを生成する。
提案した対角走査命令により、隣接するインデックスを持つトークンが近接したままでありながら、より広い方向から情報を集めることができる。
さらに、4D-RoPEと方向埋め込みという2つの方向対応モジュールが導入された。
画像トークン化器の表現能力を活用するために,コードブックを画像トークンの埋め込みとして利用する。
我々は485Mから2.0Bまでの様々なスケールのモデルを提案する。
256$\times$256 ImageNetベンチマークでは、DAR-XL (2.0B) が以前の自動回帰画像生成装置よりも優れており、最先端のFIDスコアは1.37である。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。