論文の概要: Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise
- arxiv url: http://arxiv.org/abs/2603.06095v1
- Date: Fri, 06 Mar 2026 09:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.501376
- Title: Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise
- Title(参考訳): ポジティブ・インセンティブ雑音による静的シーンのニューラルビデオ圧縮の強化
- Authors: Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li,
- Abstract要約: 監視フィードやビデオテレフォニーストリームのような静的なシーンビデオは、ストレージ消費とネットワークトラフィックの圧倒的なシェアを占める。
従来の標準コーデックとニューラルビデオ圧縮(NVC)手法は、時間的冗長性の不十分な使用と、トレーニングデータとテストデータの間の重大な分散ギャップのために、これらのビデオを効率的にエンコードするのに苦労している。
静的シーンビデオのNVCに正のインセンティブノイズを組み込むことを提案し, 短時間の時間変化を正のインセンティブノイズとして再解釈し, モデル微調整を容易にする。
- 参考スコア(独自算出の注目度): 51.028614105626154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static scene videos, such as surveillance feeds and videotelephony streams, constitute a dominant share of storage consumption and network traffic. However, both traditional standardized codecs and neural video compression (NVC) methods struggle to encode these videos efficiently due to inadequate usage of temporal redundancy and severe distribution gaps between training and test data, respectively. While recent generative compression methods improve perceptual quality, they introduce hallucinated details that are unacceptable in authenticity-critical applications. To overcome these limitations, we propose to incorporate positive-incentive noise into NVC for static scene videos, where short-term temporal changes are reinterpreted as positive-incentive noise to facilitate model finetuning. By disentangling transient variations from the persistent background, structured prior information is internalized in the compression model. During inference, the invariant component requires minimal signaling, thus reducing data transmission while maintaining pixel-level fidelity. Preliminary experiments demonstrate a 73% Bjøntegaard delta (BD) rate saving compared to general NVC models. Our method provides an effective solution to trade computation for bandwidth, enabling robust video transmission under adverse network conditions and economic long-term retention of surveillance footage.
- Abstract(参考訳): 監視フィードやビデオテレフォニーストリームのような静的なシーンビデオは、ストレージ消費とネットワークトラフィックの圧倒的なシェアを占める。
しかしながら、従来の標準コーデックとニューラルビデオ圧縮(NVC)手法は、それぞれトレーニングデータとテストデータ間の時間的冗長性の不十分な使用と深刻な分散ギャップのために、これらのビデオを効率的にエンコードするのに苦労している。
最近の生成的圧縮法では知覚品質が向上するが、真性クリティカルな応用では受け入れられない幻覚的詳細を導入する。
これらの制約を克服するため、静的シーンビデオのNVCに正のインセンティブノイズを取り入れ、短期的な時間変化を正のインセンティブノイズとして再解釈し、モデル微調整を容易にすることを提案する。
持続的背景から過渡変化を分離することにより、構造化された事前情報を圧縮モデルに内部化する。
推論中、不変成分は最小限の信号を必要とするため、ピクセルレベルの忠実さを維持しながらデータ転送を削減できる。
予備実験では、一般的なNVCモデルと比較して73%のBjøntegaard delta (BD) が節約されている。
本手法は,帯域幅の取引計算を効果的に実現し,ネットワークの悪条件下でのロバストな映像伝送と監視映像の長期保存を実現する。
関連論文リスト
- High-Fidelity Causal Video Diffusion Models for Real-Time Ultra-Low-Bitrate Semantic Communication [43.045237067909106]
超低ビットレートセマンティック通信制約下での高忠実度・因果性・リアルタイムビデオ生成のためのビデオ拡散モデルを提案する。
この枠組みは,超低速度(0.0003bpp)における知覚的品質,意味的忠実度,時間的一貫性を強く達成し,定量的,質的,主観的評価において,古典的,神経的,生成的ベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-14T17:23:55Z) - Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance [24.88807532823577]
本稿では,S2VCを提案する。S2VCは,条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合した,単一ステップ拡散に基づくビデオコーデックである。
S2VCは、従来の知覚法よりも平均52.73%の省力で、最先端の知覚品質を提供する。
論文 参考訳(メタデータ) (2025-12-08T12:05:30Z) - Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [11.913945404405865]
ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
論文 参考訳(メタデータ) (2025-11-15T08:29:14Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution [25.615935776826596]
ストレージと帯域幅の制限により、インターネット上で送信されるビデオは低画質で圧縮されたアーティファクトを特徴とすることが多い。
ビデオ超解像(VSR)は効率的なビデオ強調技術であるが、既存のVS手法では圧縮ビデオに焦点を絞らない。
圧縮VSRのための事前学習拡散モデルの先行性を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T08:57:45Z) - Deep Learning-Based Image Compression for Wireless Communications: Impacts on Reliability,Throughput, and Latency [41.77014570882275]
無線通信では、効率的な画像伝送は信頼性、スループット、レイテンシのバランスをとる必要がある。
ハイパープライアモデルとVQGAN(Vector Quantized Generative Adversarial Network)の2つの最先端学習モデルについて検討する。
両モデルのプログレッシブバージョンを提案し、不完全なチャネル条件下で部分的な画像伝送と復号を可能にする。
論文 参考訳(メタデータ) (2024-11-16T01:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。