論文の概要: TVRN: Invertible Neural Networks for Compression-Aware Temporal Video Rescaling
- arxiv url: http://arxiv.org/abs/2605.15579v1
- Date: Fri, 15 May 2026 03:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.156564
- Title: TVRN: Invertible Neural Networks for Compression-Aware Temporal Video Rescaling
- Title(参考訳): TVRN:圧縮を意識したテンポラルビデオ再スケーリングのための可逆ニューラルネットワーク
- Authors: Xinmin Feng, Li Li, Dong Liu, Feng Wu,
- Abstract要約: 圧縮対応フレームレート再スケーリングのためのエンドツーエンドフレームワーク TVRN を提案する。
TVRNはフレームレートダウンスケーリング中に失われた高周波情報を正規化する。
我々は、学習からランクへの戦略を通じて学習した圧縮認識機能を組み込むことで、TVRNを非対称なアーキテクチャに拡張する。
- 参考スコア(独自算出の注目度): 29.9685609552061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To fit diverse display and bandwidth constraints, high-frame-rate videos are temporally downscaled to low-frame-rate (LFR) and later upscaled, requiring joint optimization for effective frame-rate rescaling. However, existing methods typically link the two operations via training objectives, without fully exploiting their reciprocal nature, which may cause high-frequency information loss. Moreover, they overlook the impact of lossy codecs on LFR videos, limiting real-world applicability. In this work, we propose an end-to-end framework for compression-aware frame-rate rescaling, named TVRN. To regularize high-frequency information lost during frame-rate downscaling, TVRN adopts an invertible architecture that combines a Multi-Input Multi-Output Temporal Wavelet Transform with a high-frequency reconstruction module. To enable end-to-end training through non-differentiable lossy codecs, we design a surrogate network that approximates their gradients. Finally, to improve robustness under various compression levels, we extend TVRN to an asymmetric architecture by incorporating compression-aware features learned via a learning-to-rank strategy. Extensive experiments show that TVRN outperforms existing methods in reconstruction quality under industrial video compression settings. Source code is publicly available at https://github.com/fengxinmin/TVRN_public.
- Abstract(参考訳): 多様な表示と帯域幅の制約に適合するために、高フレームレートの動画は時間的に低フレームレート(LFR)にダウンスケールされ、その後にアップスケールされ、効果的なフレームレート再スケーリングのために共同最適化が必要である。
しかし、既存の手法では、それらの相互性を完全に活用することなく、訓練目的を介して2つの操作をリンクすることが多く、これは高周波情報損失を引き起こす可能性がある。
さらに、失われたコーデックがLFRビデオに与える影響を見落とし、現実の応用性を制限する。
本研究では,圧縮対応フレームレート再スケーリングのためのエンドツーエンドフレームワーク TVRN を提案する。
フレームレートダウンスケール中に失われる高周波情報を正規化するために、TVRNはマルチ入力マルチ出力のテンポラルウェーブレット変換と高周波再構成モジュールを組み合わせた可逆アーキテクチャを採用する。
非微分不能なコーデックによるエンドツーエンドのトレーニングを可能にするために,その勾配を近似したサロゲートネットワークを設計する。
最後に,様々な圧縮レベル下でのロバスト性向上のために,学習からランクまでの戦略を通じて学習した圧縮認識機能を組み込むことで,TVRNを非対称なアーキテクチャに拡張する。
大規模な実験により,TVRNは,産業用ビデオ圧縮環境下での再生品質において,既存の手法よりも優れていた。
ソースコードはhttps://github.com/fengxinmin/TVRN_publicで公開されている。
関連論文リスト
- NeuralLVC: Neural Lossless Video Compression via Masked Diffusion with Temporal Conditioning [8.961948904211619]
本稿では,仮面拡散と時間的冗長性を利用するI/Pフレームアーキテクチャを組み合わせたニューラルLVCを提案する。
9つのXiph CIF配列の実験により、NeuralLVCはH.264とH.265よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2026-04-03T16:49:42Z) - Efficient Video Diffusion with Sparse Information Transmission for Video Compression [24.272279529510772]
ビデオ圧縮は、最小限の歪みで復元品質を最大化することを目的としている。
超低速では、従来のエンドツーエンド圧縮モデルは、画質の悪いぼやけた画像を生成する傾向がある。
我々はDiff-SITを提案し、知覚的品質と時間的一貫性の新たな最先端性を確立する。
論文 参考訳(メタデータ) (2026-03-19T05:15:29Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。