論文の概要: Parallelized Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2412.15119v1
- Date: Thu, 19 Dec 2024 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:07.216089
- Title: Parallelized Autoregressive Visual Generation
- Title(参考訳): 並列化された自己回帰視覚生成
- Authors: Yuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu,
- Abstract要約: 本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 65.9579525736345
- License:
- Abstract: Autoregressive models have emerged as a powerful approach for visual generation but suffer from slow inference speed due to their sequential token-by-token prediction process. In this paper, we propose a simple yet effective approach for parallelized autoregressive visual generation that improves generation efficiency while preserving the advantages of autoregressive modeling. Our key insight is that parallel generation depends on visual token dependencies-tokens with weak dependencies can be generated in parallel, while strongly dependent adjacent tokens are difficult to generate together, as their independent sampling may lead to inconsistencies. Based on this observation, we develop a parallel generation strategy that generates distant tokens with weak dependencies in parallel while maintaining sequential generation for strongly dependent local tokens. Our approach can be seamlessly integrated into standard autoregressive models without modifying the architecture or tokenizer. Experiments on ImageNet and UCF-101 demonstrate that our method achieves a 3.6x speedup with comparable quality and up to 9.5x speedup with minimal quality degradation across both image and video generation tasks. We hope this work will inspire future research in efficient visual generation and unified autoregressive modeling. Project page: https://epiphqny.github.io/PAR-project.
- Abstract(参考訳): 自己回帰モデルは、視覚生成の強力なアプローチとして現れてきたが、シーケンシャルなトークン・バイ・トークンの予測プロセスにより、推論速度の低下に悩まされている。
本稿では, 自己回帰モデリングの利点を保ちながら生成効率を向上させる並列化自己回帰視覚生成のための, 単純かつ効果的なアプローチを提案する。
我々の重要な洞察は、並列生成は視覚的トークン依存に依存し、弱い依存関係を持つトークンは並列に生成できるが、独立サンプリングが不整合をもたらす可能性があるため、強い依存した隣接トークンは一緒に生成することが困難であるということです。
そこで本研究では,強い依存型局所トークンの逐次生成を維持しつつ,依存度が弱い遠隔トークンを並列に生成する並列生成戦略を開発した。
当社のアプローチは、アーキテクチャやトークン化ツールを変更することなく、標準的な自己回帰モデルにシームレスに統合することができます。
ImageNet と UCF-101 の実験では,画像生成タスクと映像生成タスクの両方で,最大で9.5倍の高速化を実現し,最大で3.6倍の高速化を実現している。
この研究が、効率的な視覚生成と統合された自己回帰モデリングにおける将来の研究を刺激することを期待している。
プロジェクトページ: https://epiphqny.github.io/PAR-project
関連論文リスト
- Importance-based Token Merging for Diffusion Models [41.94334394794811]
拡散モデルは高品質の画像とビデオ生成において優れている。
それらを高速化する強力な方法は、より高速な計算のために類似のトークンをマージすることだ。
マージ時に重要なトークンを保存することは,サンプルの品質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。