論文の概要: TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
- arxiv url: http://arxiv.org/abs/2507.18537v1
- Date: Thu, 24 Jul 2025 16:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.022069
- Title: TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
- Title(参考訳): TTS-VAR:ビジュアル自動回帰生成のためのテスト時間スケーリングフレームワーク
- Authors: Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu,
- Abstract要約: 視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
- 参考スコア(独自算出の注目度): 23.21984538472322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling visual generation models is essential for real-world content creation, yet requires substantial training and computational expenses. Alternatively, test-time scaling has garnered growing attention due to resource efficiency and promising performance. In this work, we present TTS-VAR, the first general test-time scaling framework for visual auto-regressive (VAR) models, modeling the generation process as a path searching problem. To dynamically balance computational efficiency with exploration capacity, we first introduce an adaptive descending batch size schedule throughout the causal generation process. Besides, inspired by VAR's hierarchical coarse-to-fine multi-scale generation, our framework integrates two key components: (i) At coarse scales, we observe that generated tokens are hard for evaluation, possibly leading to erroneous acceptance of inferior samples or rejection of superior samples. Noticing that the coarse scales contain sufficient structural information, we propose clustering-based diversity search. It preserves structural variety through semantic feature clustering, enabling later selection on samples with higher potential. (ii) In fine scales, resampling-based potential selection prioritizes promising candidates using potential scores, which are defined as reward functions incorporating multi-scale generation history. Experiments on the powerful VAR model Infinity show a notable 8.7% GenEval score improvement (from 0.69 to 0.75). Key insights reveal that early-stage structural features effectively influence final quality, and resampling efficacy varies across generation scales. Code is available at https://github.com/ali-vilab/TTS-VAR.
- Abstract(参考訳): ビジュアル生成モデルをスケールすることは、現実のコンテンツ作成には不可欠だが、かなりのトレーニングと計算コストを必要とする。
あるいは、リソース効率と有望なパフォーマンスのために、テストタイムのスケーリングが注目を集めています。
本稿では,視覚的自己回帰(VAR)モデルのための最初の一般的なテスト時間スケーリングフレームワークであるTS-VARを紹介し,生成過程を経路探索問題としてモデル化する。
探索能力と計算効率を動的にバランスさせるため,まず因果生成プロセスを通じて適応的な下降バッチサイズスケジュールを導入する。
VARの階層的粗大なマルチスケール生成にインスパイアされたフレームワークには,2つの重要なコンポーネントが統合されている。
粗いスケールでは、生成されたトークンは評価が困難であり、おそらく、劣るサンプルを誤って受け入れたり、優れたサンプルを拒絶したりする。
粗いスケールには十分な構造情報が含まれていることに気付き、クラスタリングに基づく多様性探索を提案する。
セマンティックな特徴クラスタリングを通じて構造的多様性を保ち、高いポテンシャルを持つサンプルを後で選択することができる。
(II) 細かなスケールでは, マルチスケール生成履歴を組み込んだ報酬関数として定義される潜在的スコアを用いて, 再サンプリングに基づく潜在的選択が有望な候補を優先する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善(0.69から0.75まで)を示している。
鍵となる洞察は、初期構造的特徴が最終品質に効果的に影響を与え、再サンプリングの有効性は世代によって異なることを示している。
コードはhttps://github.com/ali-vilab/TTS-VARで入手できる。
関連論文リスト
- AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。
これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文 参考訳(メタデータ) (2025-06-24T22:35:51Z) - Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Scaling Image and Video Generation via Test-Time Evolutionary Search [41.715197824076746]
テスト時間スケーリング(TTS)は、推論時にさらなる計算を割り当てることで、生成モデルの性能を向上させるための有望な方向として登場した。
EvoSearchは、拡散とフローモデル間の画像生成とビデオ生成のスケーラビリティを効果的に向上する、新規で汎用的で効率的なTS手法である。
論文 参考訳(メタデータ) (2025-05-23T08:25:46Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。