論文の概要: YODA: Yet Another One-step Diffusion-based Video Compressor
- arxiv url: http://arxiv.org/abs/2601.01141v1
- Date: Sat, 03 Jan 2026 10:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.049594
- Title: YODA: Yet Another One-step Diffusion-based Video Compressor
- Title(参考訳): ヨダ:もう1つの1ステップの拡散式ビデオ圧縮機
- Authors: Xingchen Li, Junzhe Zhang, Junqi Shi, Ming Lu, Zhan Ma,
- Abstract要約: 1段階拡散モデルは最近、知覚的画像圧縮に優れており、ビデオへの応用は限られている。
本稿では,潜時生成と潜時符号化の両方の時間参照からマルチスケール特徴を組み込んだYYet-One-step Diffusion-based Videoを提案する。
YODAは最先端の知覚性能を実現し、LPIPS, DISTS, FID, KIDのディープラーニングベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 55.356234617448905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.
- Abstract(参考訳): 近年,1段階拡散モデルでは知覚的画像圧縮が優れているが,ビデオへの応用は限られている。
以前の取り組みは通常、フレーム単位の遅延表現を独立に生成する事前訓練された2Dオートエンコーダに依存しており、時間的依存関係を無視する。
本稿では、よりコンパクトな表現のために空間的時間的相関をよりよく活用するために、潜時生成と潜時符号化の両方の時間的参照からマルチスケール特徴を組み込んだ一段階拡散型ビデオ圧縮機について述べる。
YODAは最先端の知覚性能を実現し、LPIPS, DISTS, FID, KIDにおける従来のディープラーニングベースラインを一貫して上回ります。
ソースコードはhttps://github.com/NJUVISION/YODA.comで公開されている。
関連論文リスト
- Generative Neural Video Compression via Video Diffusion Prior [33.164111717707414]
高度なビデオ生成基盤モデルに基づくDiTベースの生成ニューラルビデオ圧縮フレームワーク
高度なビデオ生成基盤モデルに基づく第1のDiTベース生成ニューラルビデオ圧縮フレームワーク
論文 参考訳(メタデータ) (2025-12-04T17:27:32Z) - DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.134271969594614]
まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文 参考訳(メタデータ) (2025-08-11T06:59:23Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。