Fugu-MT 論文翻訳(概要): Insights from Generative Modeling for Neural Video Compression

論文の概要: Insights from Generative Modeling for Neural Video Compression

arxiv url: http://arxiv.org/abs/2107.13136v1
Date: Wed, 28 Jul 2021 02:19:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-29 14:04:57.975126
Title: Insights from Generative Modeling for Neural Video Compression
Title（参考訳）: ニューラルビデオ圧縮のための生成モデリングの展望
Authors: Ruihan Yang, Yibo Yang, Joseph Marino, Stephan Mandt
Abstract要約: 本稿では,近年のニューラルビデオ符号化アルゴリズムについて,深部自己回帰・潜時可変モデリングのレンズを用いて述べる。フル解像度ビデオに対して,最先端の映像圧縮性能を実現するアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 34.37827236468591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent machine learning research has revealed connections between deep generative models such as VAEs and rate-distortion losses used in learned compression, most of this work has focused on images. In a similar spirit, we view recently proposed neural video coding algorithms through the lens of deep autoregressive and latent variable modeling. We present recent neural video codecs as instances of a generalized stochastic temporal autoregressive transform, and propose new avenues for further improvements inspired by normalizing flows and structured priors. We propose several architectures that yield state-of-the-art video compression performance on full-resolution video and discuss their tradeoffs and ablations. In particular, we propose (i) improved temporal autoregressive transforms, (ii) improved entropy models with structured and temporal dependencies, and (iii) variable bitrate versions of our algorithms. Since our improvements are compatible with a large class of existing models, we provide further evidence that the generative modeling viewpoint can advance the neural video coding field.
Abstract（参考訳）: 最近の機械学習研究は、VAEのような深層生成モデルと学習圧縮で使用される速度歪み損失の関連を明らかにしているが、この研究の大部分は画像に焦点を当てている。同様に、我々は最近提案されたニューラルビデオ符号化アルゴリズムを、深い自己回帰と潜伏変数モデリングのレンズを通して見る。本稿では,一般化された確率的時間的自己回帰変換の例として,最近のニューラルビデオコーデックを提案する。フル解像度ビデオに最先端のビデオ圧縮性能をもたらすいくつかのアーキテクチャを提案し、それらのトレードオフと改善について議論する。特に, (i) 時間的自己回帰変換の改良, (ii) 構造的および時間的依存性を持つエントロピーモデルの改善, (iii) 可変ビットレートバージョンのアルゴリズムを提案する。我々の改良は既存のモデルと互換性があるため、生成的モデリングの観点がニューラルビデオ符号化の分野を前進させる証拠となる。

関連論文リスト

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文参考訳（メタデータ） (2025-12-24T07:07:08Z)
VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文参考訳（メタデータ） (2025-08-04T07:24:05Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文参考訳（メタデータ） (2025-01-15T18:20:37Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文参考訳（メタデータ） (2024-06-19T04:57:18Z)
Corner-to-Center Long-range Context Model for Efficient Learned Image Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文参考訳（メタデータ） (2023-11-29T21:40:28Z)
Conditional Generative Modeling for Images, 3D Animations, and Video [4.422441608136163]
コンピュータビジョンのための生成モデリングの分野における革新を推進しようとする論文。研究は、ノイズと視覚データの変換を提供するアーキテクチャと、生成タスクや3Dコンテンツ操作にエンコーダ・デコーダアーキテクチャを適用することに焦点を当てている。
論文参考訳（メタデータ） (2023-10-19T21:10:39Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Contextformer: A Transformer with Spatio-Channel Attention for Context Modeling in Learned Image Compression [5.152019611975467]
本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
論文参考訳（メタデータ） (2022-03-04T17:29:32Z)
Deep Variational Models for Collaborative Filtering-based Recommender Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-27T08:59:39Z)
Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文参考訳（メタデータ） (2021-06-24T01:40:17Z)
Hierarchical Autoregressive Modeling for Neural Video Compression [44.1797885347606]
我々は、最近のニューラルビデオ圧縮手法を、一般化された時間的自己回帰変換の例と見なしている。大規模ビデオデータに対する包括的評価は、最先端のニューラル圧縮法と従来のビデオ圧縮法に比較して、速度歪み性能が向上したことを示している。
論文参考訳（メタデータ） (2020-10-19T03:01:33Z)
Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。 NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文参考訳（メタデータ） (2020-07-09T06:15:17Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。