論文の概要: OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better
- arxiv url: http://arxiv.org/abs/2508.09857v1
- Date: Wed, 13 Aug 2025 14:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.935051
- Title: OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better
- Title(参考訳): OneVAE: ビデオVAEトレインの離散化を支援する共同離散化と連続最適化
- Authors: Yupeng Zhou, Zhen Li, Ziheng Ouyang, Yuming Chen, Ruoyi Du, Daquan Zhou, Bin Fu, Yihao Liu, Peng Gao, Ming-Ming Cheng, Qibin Hou,
- Abstract要約: FSQは、他の量子化法と比較して、実効的に事前学習された連続VAE前処理を行えることを示す。
トークン圧縮比を損なうことなくPSNR次元を約1倍改善するマルチトークン量子化機構を提案する。
本稿では,この2つのパラダイムを統一した離散連続最適化手法を提案する。
- 参考スコア(独自算出の注目度): 75.24657690640525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Encoding videos into discrete tokens could align with text tokens to facilitate concise and unified multi-modal LLMs, yet introducing significant spatiotemporal compression compared to continuous video representation. Previous discrete video VAEs experienced unstable training, long training time, and degraded reconstruction quality. Given the easier training and superior performance of continuous VAEs, an intuitive idea is to enhance discrete video VAEs by leveraging continuous VAEs. After rethinking the intrinsic link between discrete and continuous representations, we found that FSQ could effectively preserve pre-trained continuous VAE priors compared to other quantization methods. By leveraging continuous VAE priors, it converges several times faster than training from scratch and achieves superior performance at convergence. Meanwhile, two structural improvements are proposed. First, inspired by how continuous VAEs enhance reconstruction via enlarged latent dimensions, we introduce a multi-token quantization mechanism, which achieves nearly a 1 dB improvement in PSNR without compromising the token compression ratio. Second, to tackle reconstruction challenges in high-compression video VAEs, we strengthen first-frame reconstruction, enabling the causal VAE to leverage this information in subsequent frames and markedly improving the performance of 4 x 16 x 16 discrete VAEs. Furthermore, we propose a joint discrete-continuous optimization scheme that unifies the two paradigms and, for the first time, achieves competitive performance on both continuous and discrete representations within a single network. We name our method OneVAE to reflect this connection.
- Abstract(参考訳): ビデオの離散トークンへのエンコーディングは、テキストトークンと整合して、簡潔で統一されたマルチモーダルLCMを容易にするが、連続的なビデオ表現と比較して、時間空間の大幅な圧縮を導入する。
以前の離散ビデオVAEは不安定な訓練、長い訓練時間、劣化した再建品質を経験していた。
連続型VAEの訓練が容易で優れた性能を考えると、直感的な考え方は連続型VAEを活用して離散型ビデオVAEを強化することである。
離散表現と連続表現の内在的リンクを再考した結果,FSQは他の量子化法と比較して,事前学習された連続VAE先行を効果的に保存できることが判明した。
連続VAEプリエンスを活用することで、スクラッチからのトレーニングよりも数倍早く収束し、収束時の優れたパフォーマンスを達成する。
一方、2つの構造的改善が提案されている。
まず, 連続VAEによる遅延次元拡大による再現性向上に着想を得て, トークン圧縮比を妥協することなくPSNRの約1dB向上を実現するマルチトークン量子化機構を導入する。
第2に、高圧縮ビデオVAEにおける再構成課題に対処するため、第1フレームの再構築を強化し、第2フレームでの因果的VAEによるこれらの情報の活用を可能にし、4 x 16 x 16 の離散VAEの性能を著しく向上させる。
さらに,2つのパラダイムを統一し,単一ネットワーク内の連続表現と離散表現の両面での競合性能を初めて達成する連立離散連続最適化手法を提案する。
我々はこの接続を反映する手法を OneVAE と名付けた。
関連論文リスト
- GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance [24.88807532823577]
本稿では,S2VCを提案する。S2VCは,条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合した,単一ステップ拡散に基づくビデオコーデックである。
S2VCは、従来の知覚法よりも平均52.73%の省力で、最先端の知覚品質を提供する。
論文 参考訳(メタデータ) (2025-12-08T12:05:30Z) - VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling [22.005420177236804]
VAEVQは,(1)変分潜時量子化(VLQ),AEを量子化用VOEに置き換えて構造的かつスムーズな潜時空間を活用し,より効率的なコーデックアクティベーションを促進する,(2)表現コヒーレンス戦略(RCS),(2)先行および後列化特徴間のアライメント強度を適応的に調整して整合性を高め,ノイズへの過度適合を防止する,(3)分布整合性正規化(DCR),といった3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-11-10T09:07:23Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.134271969594614]
まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文 参考訳(メタデータ) (2025-08-11T06:59:23Z) - CoVAE: Consistency Training of Variational Autoencoders [9.358185536754537]
本稿では,一貫性モデルからVAEアーキテクチャをトレーニングするための手法を取り入れた,新しい単一ステージ生成自動符号化フレームワークを提案する。
我々は,CoVAEが学習前の知識を使わずに,高品質なサンプルを1段階ないし数段階で生成できることを実証した。
提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
論文 参考訳(メタデータ) (2025-07-12T01:32:08Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack [71.2286719703198]
ビデオ拡散に基づく非制限アドリアック攻撃(ReToMe-VA)における再帰的トークンマージを提案する。
ReToMe-VAは、空間的非受容性を達成するために、Timestep-wise Adrial Latent Optimization (TALO)戦略を採用する。
ReToMe-VAには、ビデオフレーム間でトークンのマッチングとマージを行うRecursive Token Merging(ReToMe)メカニズムが導入されている。
論文 参考訳(メタデータ) (2024-08-10T08:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。