論文の概要: Rethinking Training Dynamics in Scale-wise Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2512.06421v1
- Date: Sat, 06 Dec 2025 12:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.351457
- Title: Rethinking Training Dynamics in Scale-wise Autoregressive Generation
- Title(参考訳): 大規模自己回帰生成におけるトレーニングダイナミクスの再考
- Authors: Gengze Zhou, Chongjian Ge, Hao Tan, Feng Liu, Yicong Hong,
- Abstract要約: モデルが粗い方法で画像を生成するという、一般的なパラダイムとして、次世代の予測が登場している。
スケールワイドARモデルは、生成品質を損なう露光バイアスに悩まされる。
これらの制約に対処するため、自己回帰リファインメントを提案する。
- 参考スコア(独自算出の注目度): 22.58390823803937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autoregressive (AR) generative models have produced increasingly powerful systems for media synthesis. Among them, next-scale prediction has emerged as a popular paradigm, where models generate images in a coarse-to-fine manner. However, scale-wise AR models suffer from exposure bias, which undermines generation quality. We identify two primary causes of this issue: (1) train-test mismatch, where the model must rely on its own imperfect predictions during inference, and (2) imbalance in scale-wise learning difficulty, where certain scales exhibit disproportionately higher optimization complexity. Through a comprehensive analysis of training dynamics, we propose Self-Autoregressive Refinement (SAR) to address these limitations. SAR introduces a Stagger-Scale Rollout (SSR) mechanism that performs lightweight autoregressive rollouts to expose the model to its own intermediate predictions, thereby aligning train-test patterns, and a complementary Contrastive Student-Forcing Loss (CSFL) that provides adequate supervision for self-generated contexts to ensure stable training. Experimental results show that applying SAR to pretrained AR models consistently improves generation quality with minimal computational overhead. For instance, SAR yields a 5.2% FID reduction on FlexVAR-d16 trained on ImageNet 256 within 10 epochs (5 hours on 32xA100 GPUs). Given its efficiency, scalability, and effectiveness, we expect SAR to serve as a reliable post-training method for visual autoregressive generation.
- Abstract(参考訳): 自己回帰(AR)生成モデルの最近の進歩は、メディア合成のための強力なシステムを生み出している。
その中では、モデルが粗い方法で画像を生成するという、一般的なパラダイムとして次世代の予測が登場している。
しかし、スケールワイドARモデルは露光バイアスに悩まされ、生成品質を損なう。
本問題の主な原因は,(1)モデルが推論中に不完全な予測に頼らなければならない列車-テストミスマッチ,(2)スケールワイド学習難易度の不均衡,そして,あるスケールが不均等に高い最適化複雑性を示す,の2つである。
学習力学の包括的解析を通じて,これらの制約に対処する自己回帰リファインメント(Self-Autoregressive Refinement, SAR)を提案する。
SARは、SSR(Stagger-Scale Rollout)メカニズムを導入し、SSR(Stagger-Scale Rollout)メカニズムを導入し、このメカニズムにより、モデルを自身の中間予測に公開し、列車の試験パターンを整列させ、安定したトレーニングを確保するために自己生成コンテキストを適切に監視するコントラスト型学生強制損失(Contrastive Students-Forcing Loss)を補完する。
実験結果から,事前学習されたARモデルにSARを適用することにより,計算オーバーヘッドを最小限に抑えて生成品質を継続的に向上することが示された。
例えば、SARは10時間以内でImageNet 256でトレーニングされたFlexVAR-d16のFIDを5.2%削減する(32xA100 GPUでは5時間)。
その効率性、スケーラビリティ、有効性を考えると、SARは視覚的自己回帰生成のための信頼性の高いポストトレーニング手法として機能することを期待している。
関連論文リスト
- Towards Scaling Laws for Symbolic Regression [45.609070591068836]
記号回帰は、観測データを説明する基礎となる数学的表現を発見することを目的としている。
ディープラーニングベースのSRは、最近、遺伝的プログラミングアプローチと競合している。
本稿では、拡張性のあるエンドツーエンドトランスフォーマーパイプラインを用いて、SRにおけるスケーリングに関する最初の体系的な研究を示す。
論文 参考訳(メタデータ) (2025-10-30T01:36:44Z) - Deep Generative Continual Learning using Functional LoRA: FunLoRA [12.547444644243543]
共通の戦略は、忘れを和らげるために、生成モデルを自身の合成データで再訓練することである。
低階適応(LoRA)に基づく生成モデルのための新しい、より表現力のある条件付け機構を提案する。
提案手法は,拡散モデルに基づく先行技術結果を上回るパラメータ効率細調整(PEFT)手法である。
論文 参考訳(メタデータ) (2025-10-03T00:18:05Z) - NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution [17.72407853450265]
我々は、堅牢なReal-ISRフレームワーク、すなわち、Next-Scale Autoregressive Modeling (NSARM)を導入する。
純粋なARモデルとして、NSARMは高速な推論速度を維持しながら既存のReal-ISR法よりも優れた視覚的結果を達成する。
論文 参考訳(メタデータ) (2025-10-01T12:29:58Z) - The Impact of Scaling Training Data on Adversarial Robustness [28.844098517315228]
ロバストネスは、データボリュームとモデルサイズの両方で対数スケーリングの法則に従う。
DINOv2のようなデータセットでトレーニングされた自己教師型モデルでは、はるかに大きく、キュレートされていないデータセットでトレーニングされたモデルよりも優れています。
人間の評価は、人間と機械の視界の間に永続的なギャップを露呈する。
論文 参考訳(メタデータ) (2025-09-30T08:20:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - The curse of overparametrization in adversarial training: Precise
analysis of robust generalization for random features regression [34.35440701530876]
逆向きに訓練されたランダムな特徴モデルでは、高い過度なパラメータ化が堅牢な一般化を損なう可能性があることを示す。
提案理論は, 強靭性に対する過度パラメータ化の非自明な効果を明らかにし, 高過度パラメータ化が強靭性一般化を損なうことを示唆している。
論文 参考訳(メタデータ) (2022-01-13T18:57:30Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。