論文の概要: Direction-Aware Diagonal Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2503.11129v1
- Date: Fri, 14 Mar 2025 06:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:02.852546
- Title: Direction-Aware Diagonal Autoregressive Image Generation
- Title(参考訳): 方向認識型対角自己回帰画像生成
- Authors: Yijia Xu, Jianzhong Ju, Jian Luan, Jinshi Cui,
- Abstract要約: Direction-Aware Diagonal Autoregressive Image Generation (DAR) 法は、対角走査順序に従って画像トークンを生成する。
4D-RoPEと4D-RoPEの2つの方向対応モジュールが導入された。
DAR-XL (2.0B) は従来の自己回帰画像生成装置よりも優れており、最先端のFIDスコアは1.37である。
- 参考スコア(独自算出の注目度): 7.097549664846155
- License:
- Abstract: The raster-ordered image token sequence exhibits a significant Euclidean distance between index-adjacent tokens at line breaks, making it unsuitable for autoregressive generation. To address this issue, this paper proposes Direction-Aware Diagonal Autoregressive Image Generation (DAR) method, which generates image tokens following a diagonal scanning order. The proposed diagonal scanning order ensures that tokens with adjacent indices remain in close proximity while enabling causal attention to gather information from a broader range of directions. Additionally, two direction-aware modules: 4D-RoPE and direction embeddings are introduced, enhancing the model's capability to handle frequent changes in generation direction. To leverage the representational capacity of the image tokenizer, we use its codebook as the image token embeddings. We propose models of varying scales, ranging from 485M to 2.0B. On the 256$\times$256 ImageNet benchmark, our DAR-XL (2.0B) outperforms all previous autoregressive image generators, achieving a state-of-the-art FID score of 1.37.
- Abstract(参考訳): ラスター順序画像トークンシーケンスは、線分におけるインデックス隣接トークン間の有意なユークリッド距離を示すため、自己回帰生成には適さない。
そこで本研究では,方向認識型対角自己回帰画像生成(DAR)手法を提案し,対角走査順序に従って画像トークンを生成する。
提案した対角走査命令により、隣接するインデックスを持つトークンが近接したままでありながら、より広い方向から情報を集めることができる。
さらに、4D-RoPEと方向埋め込みという2つの方向対応モジュールが導入された。
画像トークン化器の表現能力を活用するために,コードブックを画像トークンの埋め込みとして利用する。
我々は485Mから2.0Bまでの様々なスケールのモデルを提案する。
256$\times$256 ImageNetベンチマークでは、DAR-XL (2.0B) が以前の自動回帰画像生成装置よりも優れており、最先端のFIDスコアは1.37である。
関連論文リスト
- FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Handwritten Mathematical Expression Recognition via Attention
Aggregation based Bi-directional Mutual Learning [13.696706205837234]
本稿では,アテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。
推論フェーズでは、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用する。
提案手法は,CROHME 2014 では 56.85 %,CROHME 2016 では 52.92 %,CROHME 2019 では 53.96 % である。
論文 参考訳(メタデータ) (2021-12-07T09:53:40Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。