論文の概要: LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
- arxiv url: http://arxiv.org/abs/2410.21264v1
- Date: Mon, 28 Oct 2024 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:06.088599
- Title: LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
- Title(参考訳): LARP: 学習された自己回帰生成プリミティブによるビデオのトークン化
- Authors: Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava,
- Abstract要約: 本稿では、自己回帰(AR)生成モデルにおける現在のビデオトークン化手法の限界を克服する新しいビデオトークン化手法であるLARPを提案する。
局所的な視覚的パッチを直接離散トークンにエンコードする従来のパッチワイドトークンライザとは異なり、LARPは全体的トークン化スキームを導入している。
ローカルなパッチレベルの情報に制限されるのではなく、よりグローバルでセマンティックな表現をキャプチャする。
- 参考スコア(独自算出の注目度): 36.663855554010674
- License:
- Abstract: We present LARP, a novel video tokenizer designed to overcome limitations in current video tokenization methods for autoregressive (AR) generative models. Unlike traditional patchwise tokenizers that directly encode local visual patches into discrete tokens, LARP introduces a holistic tokenization scheme that gathers information from the visual content using a set of learned holistic queries. This design allows LARP to capture more global and semantic representations, rather than being limited to local patch-level information. Furthermore, it offers flexibility by supporting an arbitrary number of discrete tokens, enabling adaptive and efficient tokenization based on the specific requirements of the task. To align the discrete token space with downstream AR generation tasks, LARP integrates a lightweight AR transformer as a training-time prior model that predicts the next token on its discrete latent space. By incorporating the prior model during training, LARP learns a latent space that is not only optimized for video reconstruction but is also structured in a way that is more conducive to autoregressive generation. Moreover, this process defines a sequential order for the discrete tokens, progressively pushing them toward an optimal configuration during training, ensuring smoother and more accurate AR generation at inference time. Comprehensive experiments demonstrate LARP's strong performance, achieving state-of-the-art FVD on the UCF101 class-conditional video generation benchmark. LARP enhances the compatibility of AR models with videos and opens up the potential to build unified high-fidelity multimodal large language models (MLLMs).
- Abstract(参考訳): 本稿では、自己回帰(AR)生成モデルにおける現在のビデオトークン化手法の限界を克服する新しいビデオトークン化手法であるLARPを提案する。
局所的な視覚的パッチを直接離散的なトークンにエンコードする従来のパッチワイドトークンライザとは異なり、LARPは学習された全体的クエリのセットを使用して視覚的コンテンツから情報を収集する全体的トークン化スキームを導入している。
この設計により、LARPはローカルなパッチレベルの情報に制限されるのではなく、よりグローバルでセマンティックな表現をキャプチャできる。
さらに、任意の数の離散トークンをサポートすることで柔軟性を提供し、タスクの特定の要求に基づいて適応的で効率的なトークン化を可能にする。
離散トークン空間を下流のAR生成タスクと整合させるため、LARPは軽量ARトランスフォーマーをトレーニング時間前のモデルとして統合し、その離散潜在空間上で次のトークンを予測する。
トレーニング中に事前モデルを組み込むことで、LARPはビデオ再構成に最適化されるだけでなく、自己回帰生成により適した方法で構造化された潜在空間を学習する。
さらに、このプロセスは離散トークンのシーケンシャルな順序を定義し、トレーニング中の最適な設定に向けて徐々にプッシュし、推論時によりスムーズでより正確なAR生成を保証する。
包括的な実験はLARPの強い性能を示し、UCF101クラス条件のビデオ生成ベンチマーク上で最先端のFVDを達成する。
LARPは、ビデオとのARモデルの互換性を強化し、統合された高忠実なマルチモーダル言語モデル(MLLM)を構築する可能性を高める。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。