論文の概要: VidTok: A Versatile and Open-Source Video Tokenizer
- arxiv url: http://arxiv.org/abs/2412.13061v1
- Date: Tue, 17 Dec 2024 16:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:08.741506
- Title: VidTok: A Versatile and Open-Source Video Tokenizer
- Title(参考訳): VidTok: 有能でオープンソースのビデオトークンツール
- Authors: Anni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian,
- Abstract要約: VidTokは、連続したトークン化と離散的なトークン化の両方で最先端のパフォーマンスを提供する、汎用的なビデオトークン化ツールである。
これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 24.018360305535307
- License:
- Abstract: Encoding video content into compact latent tokens has become a fundamental step in video generation and understanding, driven by the need to address the inherent redundancy in pixel-level representations. Consequently, there is a growing demand for high-performance, open-source video tokenizers as video-centric research gains prominence. We introduce VidTok, a versatile video tokenizer that delivers state-of-the-art performance in both continuous and discrete tokenizations. VidTok incorporates several key advancements over existing approaches: 1) model architecture such as convolutional layers and up/downsampling modules; 2) to address the training instability and codebook collapse commonly associated with conventional Vector Quantization (VQ), we integrate Finite Scalar Quantization (FSQ) into discrete video tokenization; 3) improved training strategies, including a two-stage training process and the use of reduced frame rates. By integrating these advancements, VidTok achieves substantial improvements over existing methods, demonstrating superior performance across multiple metrics, including PSNR, SSIM, LPIPS, and FVD, under standardized evaluation settings.
- Abstract(参考訳): ビデオコンテンツをコンパクトな潜在トークンにエンコードすることは、ピクセルレベルの表現で固有の冗長性に対処する必要があるため、ビデオ生成と理解の基本的なステップとなっている。
その結果、ビデオ中心の研究が普及するにつれて、高性能でオープンソースのビデオトークン化ツールの需要が高まっている。
我々は,連続トークン化と離散トークン化の両方で最先端のパフォーマンスを実現する,多機能なビデオトークンライザであるVidTokを紹介した。
VidTokは、既存のアプローチに対するいくつかの重要な進歩を取り入れている。
1) 畳み込み層やアップ/ダウンサンプリングモジュールなどのモデルアーキテクチャ
2) 従来のベクトル量子化(VQ)と共通するトレーニングの不安定性とコードブックの崩壊に対処するため,Finite Scalar Quantization(FSQ)を個別ビデオトークン化に統合する。
3)2段階のトレーニングプロセスやフレームレートの削減など,トレーニング戦略の改善。
これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善され、標準化された評価設定の下でPSNR、SSIM、LPIPS、FVDを含む複数のメトリクスで優れたパフォーマンスを示す。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。