Fugu-MT 論文翻訳(概要): GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction

論文の概要: GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction

arxiv url: http://arxiv.org/abs/2205.03599v2
Date: Fri, 5 May 2023 17:19:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 17:52:24.656516
Title: GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction
Title（参考訳）: 時空間 EPI 再構成によるGAN-based Multi-View Video 符号化
Authors: Chengdong Lan, Hao Yan, Cheng Luo, Tiesong Zhao
Abstract要約: GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
参考スコア（独自算出の注目度）: 19.919826392704472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The introduction of multiple viewpoints in video scenes inevitably increases the bitrates required for storage and transmission. To reduce bitrates, researchers have developed methods to skip intermediate viewpoints during compression and delivery, and ultimately reconstruct them using Side Information (SI). Typically, depth maps are used to construct SI. However, their methods suffer from inaccuracies in reconstruction and inherently high bitrates. In this paper, we propose a novel multi-view video coding method that leverages the image generation capabilities of Generative Adversarial Network (GAN) to improve the reconstruction accuracy of SI. Additionally, we consider incorporating information from adjacent temporal and spatial viewpoints to further reduce SI redundancy. At the encoder, we construct a spatio-temporal Epipolar Plane Image (EPI) and further utilize a convolutional network to extract the latent code of a GAN as SI. At the decoder side, we combine the SI and adjacent viewpoints to reconstruct intermediate views using the GAN generator. Specifically, we establish a joint encoder constraint for reconstruction cost and SI entropy to achieve an optimal trade-off between reconstruction quality and bitrates overhead. Experiments demonstrate significantly improved Rate-Distortion (RD) performance compared with state-of-the-art methods.
Abstract（参考訳）: ビデオシーンにおける複数の視点の導入は、ストレージと送信に必要なビットレートを必然的に増加させる。ビットレートを低減するため、圧縮・配信中の中間視点を省略し、最終的にサイド情報(SI)を用いて再構築する方法を開発した。通常、深度マップはSIを構築するために使われる。しかし、それらの手法は再建の不正確さと本質的に高いビットレートに悩まされている。本稿では,GAN(Generative Adversarial Network)の画像生成機能を活用して,SIの再構成精度を向上させる多視点ビデオ符号化手法を提案する。さらに,隣接する時間的・空間的視点からの情報を取り入れることで,SI冗長性をさらに低減する。エンコーダでは、時空間のエピポーラ平面画像(EPI)を構築し、さらに畳み込みネットワークを用いてGANの潜伏符号をSIとして抽出する。デコーダ側では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。具体的には,再建コストとSIエントロピーに対する共同エンコーダ制約を確立し,再建品質とビットレートオーバヘッドの最適トレードオフを実現する。実験では、最先端手法と比較してRD性能が大幅に向上した。

関連論文リスト

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文参考訳（メタデータ） (2023-09-25T08:42:06Z)
Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文参考訳（メタデータ） (2023-09-20T21:59:23Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
PINs: Progressive Implicit Networks for Multi-Scale Neural Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文参考訳（メタデータ） (2022-02-09T20:33:37Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
Spectral Compressive Imaging Reconstruction Using Convolution and Contextual Transformer [6.929652454131988]
本稿では,CCoT(Contextual Transformer)ブロックというハイブリッドネットワークモジュールを提案する。提案したCCoTブロックを,一般化された交互投影アルゴリズムに基づく深層展開フレームワークに統合し,さらにGAP-CTネットワークを提案する。
論文参考訳（メタデータ） (2022-01-15T06:30:03Z)
Deep Video Coding with Dual-Path Generative Adversarial Network [39.19042551896408]
本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
論文参考訳（メタデータ） (2021-11-29T11:39:28Z)
Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。次に,一般的なビデオコーダを用いて圧縮する。最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文参考訳（メタデータ） (2020-12-01T17:23:53Z)
End-to-End JPEG Decoding and Artifacts Suppression Using Heterogeneous Residual Convolutional Neural Network [0.0]
既存のディープラーニングモデルは、デコードプロトコルからJPEGアーティファクトを独立したタスクとして分離する。我々は、スペクトル分解とヘテロジニアス再構成機構を備えた真のエンド・ツー・エンドヘテロジニアス残畳み込みニューラルネットワーク(HR-CNN)を設計する。
論文参考訳（メタデータ） (2020-07-01T17:44:00Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。