論文の概要: SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL
- arxiv url: http://arxiv.org/abs/2504.11455v1
- Date: Tue, 15 Apr 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 20:23:45.0165
- Title: SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL
- Title(参考訳): SimpleAR: 事前学習, SFT, RLによる自己回帰視覚生成のフロンティア
- Authors: Junke Wang, Zhi Tian, Xun Wang, Xinyu Zhang, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: この作業は、複雑な古風な修正を伴わない、バニラ自動回帰視覚生成フレームワークであるSimpleARを提示する。
我々は,高忠実度1024×1024解像度画像を生成し,テキスト・ツー・イメージ・ベンチマークで競合する結果が得られることを示した。
これらの発見を共有し、コードをオープンソース化することによって、自己回帰的な視覚生成の可能性を明らかにしたいと考えています。
- 参考スコア(独自算出の注目度): 112.92522479863054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents SimpleAR, a vanilla autoregressive visual generation framework without complex architecure modifications. Through careful exploration of training and inference optimization, we demonstrate that: 1) with only 0.5B parameters, our model can generate 1024x1024 resolution images with high fidelity, and achieve competitive results on challenging text-to-image benchmarks, e.g., 0.59 on GenEval and 79.66 on DPG; 2) both supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) training could lead to significant improvements on generation aesthectics and prompt alignment; and 3) when optimized with inference acceleraton techniques like vLLM, the time for SimpleAR to generate an 1024x1024 image could be reduced to around 14 seconds. By sharing these findings and open-sourcing the code, we hope to reveal the potential of autoregressive visual generation and encourage more participation in this research field. Code is available at https://github.com/wdrink/SimpleAR.
- Abstract(参考訳): この作業は、複雑な古風な修正を伴わない、バニラ自動回帰視覚生成フレームワークであるSimpleARを提示する。
トレーニングと推論最適化の綿密な調査を通じて、私たちは次のように示しています。
1) 0.5B のパラメータだけで高忠実度1024×1024 の解像度画像を生成し,GenEval の 0.59 と DPG の 79.66 の挑戦的なテキスト・イメージ・ベンチマークで競合する結果が得られる。
2) 指導的微調整(SFT)とグループ相対政策最適化(GRPO)の訓練は、世代麻酔と即時アライメントに大きな改善をもたらす可能性がある。
3) vLLMのような推論アクセラトン技術で最適化すると、SimpleARが1024x1024画像を生成する時間は、約14秒に短縮できる。
これらの知見を共有し、コードをオープンソース化することで、自己回帰的な視覚生成の可能性を明らかにし、この研究分野へのさらなる参加を奨励したいと考えています。
コードはhttps://github.com/wdrink/SimpleARで入手できる。
関連論文リスト
- ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection [21.677178476653385]
そこで本研究では,テキストから画像への拡散変換をインコンテキスト機能付きで行うことで,Nのベスト・オブ・Nサンプリングに代わる手法を提案する。
我々は,Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を向上させることを示す。
GenEvalでは新しい最先端スコア0.81を達成し、1プロンプト当たり20サンプルしか生成せず、以前の最高スコア0.80を上回った。
論文 参考訳(メタデータ) (2025-03-15T21:58:12Z) - FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。
新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文 参考訳(メタデータ) (2025-02-27T17:39:17Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then
Training It Toughly [114.81028176850404]
限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。
データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する。
このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中することができます。
論文 参考訳(メタデータ) (2021-02-28T05:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。