論文の概要: Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance
- arxiv url: http://arxiv.org/abs/2512.07480v1
- Date: Mon, 08 Dec 2025 12:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.874073
- Title: Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance
- Title(参考訳): セマンティック・テンポラル誘導を用いた単一ステップ拡散型ビデオ符号化
- Authors: Naifu Xue, Zhaoyang Jia, Jiahao Li, Bin Li, Zihan Zheng, Yuan Zhang, Yan Lu,
- Abstract要約: 本稿では,S2VCを提案する。S2VCは,条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合した,単一ステップ拡散に基づくビデオコーデックである。
S2VCは、従来の知覚法よりも平均52.73%の省力で、最先端の知覚品質を提供する。
- 参考スコア(独自算出の注目度): 24.88807532823577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While traditional and neural video codecs (NVCs) have achieved remarkable rate-distortion performance, improving perceptual quality at low bitrates remains challenging. Some NVCs incorporate perceptual or adversarial objectives but still suffer from artifacts due to limited generation capacity, whereas others leverage pretrained diffusion models to improve quality at the cost of heavy sampling complexity. To overcome these challenges, we propose S2VC, a Single-Step diffusion based Video Codec that integrates a conditional coding framework with an efficient single-step diffusion generator, enabling realistic reconstruction at low bitrates with reduced sampling cost. Recognizing the importance of semantic conditioning in single-step diffusion, we introduce Contextual Semantic Guidance to extract frame-adaptive semantics from buffered features. It replaces text captions with efficient, fine-grained conditioning, thereby improving generation realism. In addition, Temporal Consistency Guidance is incorporated into the diffusion U-Net to enforce temporal coherence across frames and ensure stable generation. Extensive experiments show that S2VC delivers state-of-the-art perceptual quality with an average 52.73% bitrate saving over prior perceptual methods, underscoring the promise of single-step diffusion for efficient, high-quality video compression.
- Abstract(参考訳): 従来のニューラルビデオコーデック(NVC)は高い速度歪曲性能を達成しているが、低ビットレートでの知覚品質の改善は依然として困難である。
一部のNVCは知覚的あるいは敵対的な目的を取り入れているが、生成能力の制限により依然として人工物に悩まされている。
これらの課題を克服するため、S2VCは、条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合し、サンプリングコストを削減し、低ビットレートでの現実的な再構築を可能にする、シングルステップ拡散に基づくビデオコーデックである。
単一ステップ拡散におけるセマンティック・コンディショニングの重要性を認識し,バッファリングされた特徴からフレーム適応的セマンティック・セマンティック・ガイダンスを抽出する。
テキストキャプションを効率よくきめ細かな条件付けに置き換え、生成リアリズムを改善する。
さらに、フレーム間の時間的コヒーレンスを強制し、安定した生成を確保するために、時間的一貫性ガイダンスが拡散U-Netに組み込まれる。
大規模な実験により、S2VCは従来の知覚的手法よりも平均52.73%のビットレートで最先端の知覚的品質を提供しており、効率的な高品質なビデオ圧縮のための単一ステップ拡散の可能性を強調している。
関連論文リスト
- BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.134271969594614]
まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文 参考訳(メタデータ) (2025-08-11T06:59:23Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。