論文の概要: Sample- and Parameter-Efficient Auto-Regressive Image Models
- arxiv url: http://arxiv.org/abs/2411.15648v1
- Date: Sat, 23 Nov 2024 20:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:02.659803
- Title: Sample- and Parameter-Efficient Auto-Regressive Image Models
- Title(参考訳): サンプル・パラメータ効率の良い自己回帰画像モデル
- Authors: Elad Amrani, Leonid Karlinsky, Alex Bronstein,
- Abstract要約: 我々は,新しい自己回帰目標を事前学習した視覚モデルであるXTRAを紹介する。
XTRAはBlock Causal Maskを採用しており、それぞれのBlockは標準的な因果マスクに頼るのではなく、k$times$kトークンを表す。
XTRAはブロック単位でピクセル値を再構築することにより、より大きな画像領域上の高レベルの構造パターンをキャプチャする。
- 参考スコア(独自算出の注目度): 15.501863812794209
- License:
- Abstract: We introduce XTRA, a vision model pre-trained with a novel auto-regressive objective that significantly enhances both sample and parameter efficiency compared to previous auto-regressive image models. Unlike contrastive or masked image modeling methods, which have not been demonstrated as having consistent scaling behavior on unbalanced internet data, auto-regressive vision models exhibit scalable and promising performance as model and dataset size increase. In contrast to standard auto-regressive models, XTRA employs a Block Causal Mask, where each Block represents k $\times$ k tokens rather than relying on a standard causal mask. By reconstructing pixel values block by block, XTRA captures higher-level structural patterns over larger image regions. Predicting on blocks allows the model to learn relationships across broader areas of pixels, enabling more abstract and semantically meaningful representations than traditional next-token prediction. This simple modification yields two key results. First, XTRA is sample-efficient. Despite being trained on 152$\times$ fewer samples (13.1M vs. 2B), XTRA ViT-H/14 surpasses the top-1 average accuracy of the previous state-of-the-art auto-regressive model across 15 diverse image recognition benchmarks. Second, XTRA is parameter-efficient. Compared to auto-regressive models trained on ImageNet-1k, XTRA ViT-B/16 outperforms in linear and attentive probing tasks, using 7-16$\times$ fewer parameters (85M vs. 1.36B/0.63B).
- Abstract(参考訳): 我々は,従来の自己回帰画像モデルと比較して,サンプルとパラメータの効率を著しく向上する,新しい自己回帰目標を事前学習した視覚モデルXTRAを紹介する。
非バランスなインターネットデータに一貫したスケーリング動作を持つことが証明されていない対照的な画像モデリング手法とは異なり、自動回帰視覚モデルは、モデルとデータセットサイズの増加に伴ってスケーラブルで有望なパフォーマンスを示す。
標準的な自己回帰モデルとは対照的に、XTRAはブロック因果マスクを採用しており、それぞれのブロックは標準的な因果マスクに頼るのではなく、k$\times$kトークンを表す。
XTRAはブロック単位でピクセル値を再構築することにより、より大きな画像領域上の高レベルの構造パターンをキャプチャする。
ブロックの予測により、モデルはピクセルの広い領域にわたる関係を学習し、従来の次の次の予測よりも抽象的で意味のある表現を可能にする。
この単純な修正は2つの重要な結果をもたらす。
まず、XTRAは試料効率が高い。
152$\times$ より少ないサンプル (13.1M vs. 2B) でトレーニングされているにもかかわらず、XTRA ViT-H/14 は15種類の画像認識ベンチマークで過去の最先端の自己回帰モデルの平均精度を上回っている。
第2に、XTRAはパラメータ効率が高い。
ImageNet-1kでトレーニングされた自動回帰モデルと比較すると、XTRA ViT-B/16は7-16$\times$より少ないパラメータ(85M vs. 1.36B/0.63B)を使用して線形および注意深いプローブタスクで性能が向上する。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Autoregressive Image Generation without Vector Quantization [31.798754606008067]
従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。