論文の概要: RandAR: Decoder-only Autoregressive Visual Generation in Random Orders
- arxiv url: http://arxiv.org/abs/2412.01827v1
- Date: Mon, 02 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:47.991146
- Title: RandAR: Decoder-only Autoregressive Visual Generation in Random Orders
- Title(参考訳): RandAR: ランダム順序におけるデコーダのみの自己回帰視覚生成
- Authors: Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang,
- Abstract要約: RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。
我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。
RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
- 参考スコア(独自算出の注目度): 54.49937384788739
- License:
- Abstract: We introduce RandAR, a decoder-only visual autoregressive (AR) model capable of generating images in arbitrary token orders. Unlike previous decoder-only AR models that rely on a predefined generation order, RandAR removes this inductive bias, unlocking new capabilities in decoder-only generation. Our essential design enables random order by inserting a "position instruction token" before each image token to be predicted, representing the spatial location of the next image token. Trained on randomly permuted token sequences -- a more challenging task than fixed-order generation, RandAR achieves comparable performance to its conventional raster-order counterpart. More importantly, decoder-only transformers trained from random orders acquire new capabilities. For the efficiency bottleneck of AR models, RandAR adopts parallel decoding with KV-Cache at inference time, enjoying 2.5x acceleration without sacrificing generation quality. Additionally, RandAR supports inpainting, outpainting and resolution extrapolation in a zero-shot manner. We hope RandAR inspires new directions for decoder-only visual generation models and broadens their applications across diverse scenarios. Our project page is at https://rand-ar.github.io/.
- Abstract(参考訳): 我々は、任意のトークン順序で画像を生成することができるデコーダのみの視覚自己回帰(AR)モデルであるRandARを紹介する。
事前に定義された生成順序に依存する以前のデコーダのみのARモデルとは異なり、RandARはこの誘導バイアスを取り除き、デコーダのみのジェネレーションで新しい機能をアンロックする。
本設計では,各画像トークンが予測される前に,次の画像トークンの空間的位置を表す「配置指示トークン」を挿入することで,ランダムな順序付けを可能にする。
ランダムに置換されたトークンシーケンスでトレーニングされている -- 固定順序生成よりも難しいタスクであるRandARは、従来のラスタ順と同等のパフォーマンスを達成している。
さらに重要なのは、ランダム順序から訓練されたデコーダのみのトランスフォーマーが、新しい機能を取得することだ。
ARモデルの効率ボトルネックのために、RandARは推論時にKVキャッシュによる並列デコーディングを採用し、生成品質を犠牲にすることなく2.5倍のアクセラレーションを享受する。
さらにRandARは、インペイント、アウトペイント、解像度の外挿をゼロショットでサポートしている。
RandARがデコーダのみのビジュアル生成モデルに新たな方向性を刺激し、さまざまなシナリオでアプリケーションを拡張できることを願っています。
私たちのプロジェクトページはhttps://rand-ar.github.io/です。
関連論文リスト
- Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Match What Matters: Generative Implicit Feature Replay for Continual
Learning [0.0]
クラス増分学習のためのGenIFeR(Generative Implicit Feature Replay)を提案する。
主な目的は、GAN(Generative Adversarial Network)をトレーニングして、現実的な特徴を含む画像を生成することである。
我々は、GenIFeRが従来の生成画像と特徴再生の両方よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-09T19:29:41Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。