論文の概要: Compressing Video Calls using Synthetic Talking Heads
- arxiv url: http://arxiv.org/abs/2210.03692v1
- Date: Fri, 7 Oct 2022 16:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:26:34.189006
- Title: Compressing Video Calls using Synthetic Talking Heads
- Title(参考訳): 合成音声ヘッドを用いたビデオ通話の圧縮
- Authors: Madhav Agarwal, Anchit Gupta, Rudrabha Mukhopadhyay, Vinay P.
Namboodiri, C V Jawahar
- Abstract要約: 本稿では,ヘッドビデオ圧縮のためのエンドツーエンドシステムを提案する。
提案アルゴリズムは,他の音声ヘッドビデオがアニメーションによって生成される間,ピボットフレームを断続的に送信する。
我々は、最先端の顔再現ネットワークを用いて、非ピボットフレームのキーポイントを検出し、それを受信機に送信する。
- 参考スコア(独自算出の注目度): 43.71577046989023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We leverage the modern advancements in talking head generation to propose an
end-to-end system for talking head video compression. Our algorithm transmits
pivot frames intermittently while the rest of the talking head video is
generated by animating them. We use a state-of-the-art face reenactment network
to detect key points in the non-pivot frames and transmit them to the receiver.
A dense flow is then calculated to warp a pivot frame to reconstruct the
non-pivot ones. Transmitting key points instead of full frames leads to
significant compression. We propose a novel algorithm to adaptively select the
best-suited pivot frames at regular intervals to provide a smooth experience.
We also propose a frame-interpolater at the receiver's end to improve the
compression levels further. Finally, a face enhancement network improves
reconstruction quality, significantly improving several aspects like the
sharpness of the generations. We evaluate our method both qualitatively and
quantitatively on benchmark datasets and compare it with multiple compression
techniques. We release a demo video and additional information at
https://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compression.
- Abstract(参考訳): 音声ヘッド生成の最近の進歩を利用して,音声ヘッド圧縮のためのエンドツーエンドシステムを提案する。
提案アルゴリズムは,他の音声ヘッドビデオがアニメーションによって生成される間,ピボットフレームを断続的に送信する。
我々は最先端の顔再現ネットワークを用いて非ピボットフレームのキーポイントを検出し、受信者に送信する。
すると、濃密な流れが計算され、ピボットフレームをゆがめて非ピボットフレームを再構築する。
フルフレームの代わりにキーポイントを送信することは、大きな圧縮につながる。
本稿では,最適なピボットフレームを一定間隔で適応的に選択し,スムーズな体験を実現する新しいアルゴリズムを提案する。
また, 圧縮レベルをさらに向上させるために, 受信側端のフレームインターポレータを提案する。
最後に、フェースエンハンスメントネットワークは、再構築品質を改善し、世代ごとのシャープネスなどのいくつかの側面を著しく改善する。
本手法は,ベンチマークデータセット上で定性的かつ定量的に評価し,複数の圧縮手法と比較する。
デモビデオと追加情報をhttps://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compressionで公開します。
関連論文リスト
- Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Deep Contextual Video Compression [20.301569390401102]
本稿では,予測符号化から条件付き符号化へのパラダイムシフトを実現するための,深い文脈ビデオ圧縮フレームワークを提案する。
提案手法は従来のSOTA(State-of-theart)ディープビデオ圧縮法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-09-30T12:14:24Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。