論文の概要: Neural Face Video Compression using Multiple Views
- arxiv url: http://arxiv.org/abs/2203.15401v1
- Date: Tue, 29 Mar 2022 09:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:04:54.396457
- Title: Neural Face Video Compression using Multiple Views
- Title(参考訳): 複数視点を用いたニューラルフェイス映像圧縮
- Authors: Anna Volokitin, Stefan Brugger, Ali Benlalah, Sebastian Martin, Brian
Amberg, Michael Tschannen
- Abstract要約: 深部生成モデルの最近の進歩は、ニューラルフェイスビデオ圧縮コーデックの開発につながった。
これらのニューラルコーデックは、ソースフレームをワープし、生成モデルを使用して、歪んだソースフレームの欠陥を補うことにより、現在のフレームを再構築する。
ここでは、複数のソースフレーム(顔のビュー)に依存して、奨励的な結果を提供することにより、この問題に対処することを目指している。
- 参考スコア(独自算出の注目度): 14.42896036119354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep generative models led to the development of neural
face video compression codecs that use an order of magnitude less bandwidth
than engineered codecs. These neural codecs reconstruct the current frame by
warping a source frame and using a generative model to compensate for
imperfections in the warped source frame. Thereby, the warp is encoded and
transmitted using a small number of keypoints rather than a dense flow field,
which leads to massive savings compared to traditional codecs. However, by
relying on a single source frame only, these methods lead to inaccurate
reconstructions (e.g. one side of the head becomes unoccluded when turning the
head and has to be synthesized). Here, we aim to tackle this issue by relying
on multiple source frames (views of the face) and present encouraging results.
- Abstract(参考訳): 深層生成モデルの最近の進歩は、エンジニアリングコーデックよりも桁違いに少ない帯域幅を使用するニューラルフェイスビデオ圧縮コーデックの開発につながった。
これらのニューラルコーデックは、ソースフレームをワープし、生成モデルを使用して、歪んだソースフレームの欠陥を補うことにより、現在のフレームを再構築する。
これにより、warpは、密度の高いフローフィールドではなく、少数のキーポイントを使用して符号化され、送信され、従来のコーデックに比べて大幅に節約される。
しかし、単一のソースフレームのみに依存することで、これらの方法が不正確な再構成につながる(例えば、頭部を回す際に頭部の片側が不明瞭になり、合成しなければならない)。
ここでは、複数のソースフレーム(顔のビュー)に依存してこの問題に取り組み、奨励的な結果を提示することを目指している。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - RQAT-INR: Improved Implicit Neural Image Compression [4.449835214520727]
本研究では,INRに基づく画像の複雑さがVAEベースのアプローチよりも低いことを示す。
また,INRに基づく画像モデルとベースラインモデルに対して,大きなマージンでいくつかの改良が提案されている。
論文 参考訳(メタデータ) (2023-03-06T10:59:45Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - End-to-End Image Compression with Probabilistic Decoding [31.38636002751645]
確率的復号化を支援するための学習画像圧縮フレームワークを提案する。
提案するフレームワークは、画素を係数に変換するための可逆ニューラルネットワークベースの変換に依存する。
論文 参考訳(メタデータ) (2021-09-30T04:07:09Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。