論文の概要: Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
- arxiv url: http://arxiv.org/abs/2512.21004v1
- Date: Wed, 24 Dec 2025 07:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.708525
- Title: Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
- Title(参考訳): 次フレーム予測からの学習:効果的な表現を符号化した自己回帰ビデオモデリング
- Authors: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu,
- Abstract要約: NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
- 参考スコア(独自算出の注目度): 53.91818843831925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.
- Abstract(参考訳): 一般基礎モデルの事前訓練の最近の進歩は、様々な下流タスクにおける性能を著しく向上させてきた。
GPTのような自己回帰(AR)生成モデルはNLPに革命をもたらしたが、ほとんどの視覚的生成事前学習法は、ビデオ解析に必要な時間的情報を無視したBERTスタイルのマスクモデリングに依存している。
数少ない自己回帰的視覚前訓練手法は、不正確なセマンティックローカライゼーションや、生成品質の低下といった問題に悩まされ、セマンティクスが低下する。
本研究では,マスク付き次フレーム予測を用いて画像と映像を協調的にモデル化する,新しい自己回帰型視覚生成事前学習フレームワークであるNExT-Vidを提案する。
NExT-Vidは、ターゲットデコードからセマンティック表現を分離する文脈分離型自己回帰予測器と、生成品質と多様性を向上させる条件付きフローマッチングデコーダを導入している。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
大規模事前学習モデルに対する広範囲な実験により,提案手法は下流分類における注意的探索による視覚表現学習において,従来手法よりも一貫して優れていた。
関連論文リスト
- Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
DepthART - Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法を紹介する。
モデル自身の予測を入力として利用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。