論文の概要: Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2410.10511v1
- Date: Mon, 14 Oct 2024 13:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:14:59.032351
- Title: Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling
- Title(参考訳): セット自動回帰モデリングによる視覚的自己回帰レシピのカスタマイズ
- Authors: Wenze Liu, Le Zhuo, Yi Xin, Sheng Xia, Peng Gao, Xiangyu Yue,
- Abstract要約: 我々は,SAR(Set AutoRegressive Modeling)と呼ばれる,自動回帰(AR)画像生成のための新しいパラダイムを導入する。
SARは従来のARを次のセット設定、すなわち複数のトークンを含む任意の集合に分割するように一般化する。
シーケンス順序と出力間隔が性能に与える影響を解析し,SARの特性について検討する。
- 参考スコア(独自算出の注目度): 15.013242103936625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new paradigm for AutoRegressive (AR) image generation, termed Set AutoRegressive Modeling (SAR). SAR generalizes the conventional AR to the next-set setting, i.e., splitting the sequence into arbitrary sets containing multiple tokens, rather than outputting each token in a fixed raster order. To accommodate SAR, we develop a straightforward architecture termed Fully Masked Transformer. We reveal that existing AR variants correspond to specific design choices of sequence order and output intervals within the SAR framework, with AR and Masked AR (MAR) as two extreme instances. Notably, SAR facilitates a seamless transition from AR to MAR, where intermediate states allow for training a causal model that benefits from both few-step inference and KV cache acceleration, thus leveraging the advantages of both AR and MAR. On the ImageNet benchmark, we carefully explore the properties of SAR by analyzing the impact of sequence order and output intervals on performance, as well as the generalization ability regarding inference order and steps. We further validate the potential of SAR by training a 900M text-to-image model capable of synthesizing photo-realistic images with any resolution. We hope our work may inspire more exploration and application of AR-based modeling across diverse modalities.
- Abstract(参考訳): 本稿では,SAR(Set AutoRegressive Modeling)と呼ばれる,AutoRegressive(AR)画像生成のための新しいパラダイムを提案する。
SARは、従来のARを、固定されたラスタ順序で各トークンを出力するのではなく、複数のトークンを含む任意の集合に分割する、という次のセット設定に一般化する。
SARに対応するために、Fully Masked Transformerと呼ばれる簡単なアーキテクチャを開発した。
既存のAR変種は、SARフレームワーク内のシーケンス順序と出力間隔の特定の設計選択に対応しており、ARとMasked AR(MAR)は2つの極端なインスタンスである。
特に、SARはARからMARへのシームレスな移行を促進し、中間状態は、数ステップの推論とKVキャッシュアクセラレーションの両方から恩恵を受ける因果モデルのトレーニングを可能にし、ARとMARの両方の利点を活用する。
ImageNetベンチマークでは、シーケンス順序と出力間隔がパフォーマンスに与える影響、および推論順序とステップに関する一般化能力を分析することにより、SARの特性を慎重に検討する。
我々はさらに、9億枚のテキスト・ツー・イメージモデルを訓練し、任意の解像度で写真リアル画像の合成を可能にすることにより、SARの可能性を検証する。
私たちの研究が、さまざまなモダリティをまたいだARベースのモデリングの探求と応用に刺激を与えてくれることを期待しています。
関連論文リスト
- Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution [10.074968164380314]
Inlicit Neural Representation (INR) は、任意スケール超解法 (ASR) に成功している
各ピクセルをレンダリングするために、何度もクエリするのは計算コストがかかる。
近年,Gaussian Splatting (GS)は3次元タスクの視覚的品質とレンダリング速度の両方において,INRよりも優位性を示している。
論文 参考訳(メタデータ) (2025-01-12T15:14:58Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting [9.114664059026767]
本稿では,AR(Autoregressive Varying GatE attention mechanism)とMA(Moving-average)を併用した重み付き自己回帰Varying GatEアテンション機構を提案する。
様々な注意機構に適応し、時系列データの中で長距離および局所的な時間パターンをキャプチャする能力を強化し、分離することができる。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - General-purpose, long-context autoregressive modeling with Perceiver AR [58.976153199352254]
我々は、長距離入力を潜伏者にマップするクロスアテンションを用いた自己回帰型モダリティ非依存型アーキテクチャPerceiver ARを開発した。
Perceiver ARは10万以上のトークンに直接対応可能で、実用的な長期コンテキスト密度推定を可能にする。
また,64 x 64 イメージネット画像や PG-19 の書籍など,時系列ベンチマークの最先端性も得られている。
論文 参考訳(メタデータ) (2022-02-15T22:31:42Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。