論文の概要: SuperTran: Reference Based Video Transformer for Enhancing Low Bitrate
Streams in Real Time
- arxiv url: http://arxiv.org/abs/2211.12604v1
- Date: Tue, 22 Nov 2022 22:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:57:37.294705
- Title: SuperTran: Reference Based Video Transformer for Enhancing Low Bitrate
Streams in Real Time
- Title(参考訳): SuperTran:低ビットレートストリームをリアルタイム化するためのリファレンスベースのビデオトランス
- Authors: Tejas Khot, Nataliya Shapovalova, Silviu Andrei, Walterio Mayol-Cuevas
- Abstract要約: この研究は、ビデオ品質が著しく損なわれている低いビデオストリーミングシナリオ(例:50~200Kbps)に焦点を当てている。
圧縮アーティファクトを除去し,超解像化を行うことにより,ストリームの知覚的映像品質を向上させるための新しい深層生成モデル群を提示する。
我々のモデルはSuperTranと呼ばれ、低画質の低解像度ビデオストリームに加えて、単一の高品質で高解像度の参照画像として消費する。
- 参考スコア(独自算出の注目度): 0.6308539010172309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on low bitrate video streaming scenarios (e.g. 50 -
200Kbps) where the video quality is severely compromised. We present a family
of novel deep generative models for enhancing perceptual video quality of such
streams by performing super-resolution while also removing compression
artifacts. Our model, which we call SuperTran, consumes as input a single
high-quality, high-resolution reference images in addition to the low-quality,
low-resolution video stream. The model thus learns how to borrow or copy visual
elements like textures from the reference image and fill in the remaining
details from the low resolution stream in order to produce perceptually
enhanced output video. The reference frame can be sent once at the start of the
video session or be retrieved from a gallery. Importantly, the resulting output
has substantially better detail than what has been otherwise possible with
methods that only use a low resolution input such as the SuperVEGAN method.
SuperTran works in real-time (up to 30 frames/sec) on the cloud alongside
standard pipelines.
- Abstract(参考訳): この研究は、低ビットレートのビデオストリーミングシナリオ(例:50200Kbps)に焦点を当てている。
圧縮アーティファクトを除去し,超解像化を行うことにより,ストリームの知覚的映像品質を向上させるための新しい深層生成モデル群を提案する。
我々のモデルはSuperTranと呼ばれ、低画質の低解像度ビデオストリームに加えて、単一の高品質で高解像度の参照画像として消費する。
これにより、参照画像からテクスチャなどの視覚的要素を借りたりコピーしたりする方法を学び、低解像度ストリームから残りの詳細を埋めて知覚的に強化された出力ビデオを生成する。
参照フレームはビデオセッションの開始時に一度送信するか、ギャラリーから取得することができる。
重要な点として、結果の出力はSuperVEGAN法のような低解像度の入力のみを使用する方法では、他の方法よりもはるかに詳細である。
SuperTranは、標準的なパイプラインとともに、クラウド上のリアルタイム(最大30フレーム/秒)で動作する。
関連論文リスト
- Implicit Neural Representation for Videos Based on Residual Connection [0.0]
画像再構成に有効な残差接続として低解像度フレームを用いる手法を提案する。
実験の結果,本手法はPSNRの既存手法であるHNeRVを49本中46本で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-15T10:10:48Z) - Super Efficient Neural Network for Compression Artifacts Reduction and
Super Resolution [2.0762623979470205]
本稿では,人工物削減と超解像を同時に行う軽量畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムを提案する。
その結果,従来のアップスケーリング手法と比較して,ビデオマルチメソッド評価融合(VMAF)スコアが4~6増加していた。
論文 参考訳(メタデータ) (2024-01-26T04:11:14Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Towards High-Quality and Efficient Video Super-Resolution via
Spatial-Temporal Data Overfitting [27.302681897961588]
ディープ畳み込みニューラルネットワーク(DNN)はコンピュータビジョンの様々な分野で広く使われている。
高品質で効率的なビデオ解像度アップスケーリングタスクのための新しい手法を提案する。
市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:40:02Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Gemino: Practical and Robust Neural Compression for Video Conferencing [19.137804113000474]
Geminoは、新しい高周波超解像パイプラインに基づくビデオ会議のための新しいニューラル圧縮システムである。
我々は,GeminoがTitan X GPU上でリアルタイムに動画を処理し,従来のビデオコーデックよりも2.2~5倍低画質で知覚品質を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-21T17:10:46Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Efficient Video Compression via Content-Adaptive Super-Resolution [11.6624528293976]
ビデオ圧縮はインターネットビデオ配信の重要なコンポーネントである。
近年の研究では、ディープラーニング技術が人間のアルゴリズムに匹敵する、あるいは優れていることが示されている。
本稿では,最近の深層学習に基づくビデオ圧縮方式を補強する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-06T07:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。