論文の概要: DeRA: Decoupled Representation Alignment for Video Tokenization
- arxiv url: http://arxiv.org/abs/2512.04483v1
- Date: Thu, 04 Dec 2025 05:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.012046
- Title: DeRA: Decoupled Representation Alignment for Video Tokenization
- Title(参考訳): DeRA:ビデオトークン化のための非結合表現アライメント
- Authors: Pengbo Guo, Junke Wang, Zhen Xing, Chengxu Liu, Daoguo Dong, Xueming Qian, Zuxuan Wu,
- Abstract要約: DeRAは、ビデオトークン化における空間的時間的表現学習を分離し、訓練効率と性能を向上させる新しい1Dビデオトークン化器である。
DeRA は従来の最先端ビデオトークンである LARP を rFVD で25% 上回る性能を示した。
また,UCF-101クラス条件生成とK600フレーム予測の両方に対して,最先端の新たな結果が得られる。
- 参考スコア(独自算出の注目度): 76.19673546412561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents DeRA, a novel 1D video tokenizer that decouples the spatial-temporal representation learning in video tokenization to achieve better training efficiency and performance. Specifically, DeRA maintains a compact 1D latent space while factorizing video encoding into appearance and motion streams, which are aligned with pretrained vision foundation models to capture the spatial semantics and temporal dynamics in videos separately. To address the gradient conflicts introduced by the heterogeneous supervision, we further propose the Symmetric Alignment-Conflict Projection (SACP) module that proactively reformulates gradients by suppressing the components along conflicting directions. Extensive experiments demonstrate that DeRA outperforms LARP, the previous state-of-the-art video tokenizer by 25% on UCF-101 in terms of rFVD. Moreover, using DeRA for autoregressive video generation, we also achieve new state-of-the-art results on both UCF-101 class-conditional generation and K600 frame prediction.
- Abstract(参考訳): 本稿では,ビデオトークン化における空間的時間的表現学習を分離し,訓練効率と性能を向上する新しい1次元ビデオトークン化器DeRAを提案する。
具体的には、DeRAは、ビデオエンコーディングを外見とモーションストリームに分解しながら、コンパクトな1D潜伏空間を維持し、事前訓練された視覚基盤モデルと整合して、ビデオ内の空間意味論と時間ダイナミクスを別々にキャプチャする。
不均一な監督によってもたらされる勾配の衝突に対処するために、対立する方向に沿って成分を抑えることで勾配を積極的に修正するシンメトリーアライメント・コンフリクト・プロジェクション(SACP)モジュールを提案する。
大規模な実験により、DeRAは以前の最先端ビデオトークンであるLARPを、rFVDの観点からUCF-101上で25%上回る性能を示した。
さらに、自動回帰ビデオ生成にDeRAを用いると、UCF-101クラス条件生成とK600フレーム予測の両方において、最先端の新たな結果が得られる。
関連論文リスト
- Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models [31.138079872368532]
トレーニングデータの特定の属性を反映したビデオを生成するための、ユーザレベルでの微調整ビデオ拡散モデル(VDM)は、注目すべき課題である。
Representation Alignment (REPA)のような最近の研究は、DiTベースの画像拡散モデルの収束と品質を改善することを約束している。
フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment(CREPA)を導入する。
論文 参考訳(メタデータ) (2025-06-10T20:34:47Z) - Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space [94.07013629356113]
AdapTokは、ビデオコンテンツに基づいて異なるフレームに対してフレキシブルにトークンを割り当てる適応的時間的因果的ビデオトークンライザである。
AdapTokは、異なるトークン予算の下で、再構築品質と生成パフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-05-22T17:59:02Z) - ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。