論文の概要: ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models
- arxiv url: http://arxiv.org/abs/2503.02883v1
- Date: Tue, 04 Mar 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.723149
- Title: ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models
- Title(参考訳): ARINAR: 双方向の自己回帰型機能バイ機能生成モデル
- Authors: Qinyu Zhao, Stephen Gould, Liang Zheng,
- Abstract要約: 213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
213Mパラメータを持つARINAR-Bは、最先端のMAR-Bモデル(FID=2.31)に匹敵する2.75のFIDを達成し、後者より5倍高速である。
- 参考スコア(独自算出の注目度): 37.65992612575692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing autoregressive (AR) image generative models use a token-by-token generation schema. That is, they predict a per-token probability distribution and sample the next token from that distribution. The main challenge is how to model the complex distribution of high-dimensional tokens. Previous methods either are too simplistic to fit the distribution or result in slow generation speed. Instead of fitting the distribution of the whole tokens, we explore using a AR model to generate each token in a feature-by-feature way, i.e., taking the generated features as input and generating the next feature. Based on that, we propose ARINAR (AR-in-AR), a bi-level AR model. The outer AR layer take previous tokens as input, predicts a condition vector z for the next token. The inner layer, conditional on z, generates features of the next token autoregressively. In this way, the inner layer only needs to model the distribution of a single feature, for example, using a simple Gaussian Mixture Model. On the ImageNet 256x256 image generation task, ARINAR-B with 213M parameters achieves an FID of 2.75, which is comparable to the state-of-the-art MAR-B model (FID=2.31), while five times faster than the latter.
- Abstract(参考訳): 既存の自己回帰(AR)画像生成モデルはトークン・バイ・トークン生成スキーマを使用する。
すなわち、各確率分布を予測し、その分布から次のトークンをサンプリングする。
主な課題は、高次元トークンの複雑な分布をモデル化する方法である。
従来の方法では、分布に合わせるには単純すぎるか、生成速度が遅くなる。
トークン全体の分布を調整する代わりに、ARモデルを使用して各トークンを機能ごとに生成する。
そこで本研究では,2レベルARモデルであるARINAR(AR-in-AR)を提案する。
外的AR層は、前のトークンを入力として、次のトークンの条件ベクトルzを予測する。
内部層、条件付き z は次のトークンの特徴を自己回帰的に生成する。
このようにして、内部層は、例えば単純なガウス混合モデルを使って、単一の特徴の分布をモデル化するだけである。
ImageNet 256x256の画像生成タスクでは、213Mパラメータを持つARINAR-Bが2.75のFIDを達成しており、これは最先端のMAR-Bモデル(FID=2.31)に匹敵する。
関連論文リスト
- Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation [34.112157859384645]
自己回帰(AR)モデリングは、最先端の言語と視覚的生成モデルを支える。
伝統的に、トークン'' は最小の予測単位として扱われ、しばしば言語における離散的なシンボルまたは視覚における量子化されたパッチとして扱われる。
トークンの概念をエンティティXに拡張するフレームワークであるxARを提案する。
論文 参考訳(メタデータ) (2025-02-27T18:59:08Z) - Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching [12.985270202599814]
自動回帰(AR)モデルは、テキストと画像生成において最先端のパフォーマンスを達成したが、トークン・バイ・トークン・プロセスにより、遅い生成に悩まされている。
トレーニング済みのARモデルは、1、2ステップでアウトプットを生成することができるのか?
本研究では,ガウス分布から事前学習されたARモデルの出力分布への決定論的マッピングを生成するために,フローマッチングを用いたDD(Distilled Decoding)を提案する。
論文 参考訳(メタデータ) (2024-12-22T20:21:54Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、サンプリング速度を損なうことなく高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - Autoregressive Image Generation without Vector Quantization [31.798754606008067]
従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。