Fugu-MT 論文翻訳(概要): Conditional Neural Video Coding with Spatial-Temporal Super-Resolution

論文の概要: Conditional Neural Video Coding with Spatial-Temporal Super-Resolution

arxiv url: http://arxiv.org/abs/2401.13959v1
Date: Thu, 25 Jan 2024 05:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:31:26.451692
Title: Conditional Neural Video Coding with Spatial-Temporal Super-Resolution
Title（参考訳）: 時空間超解像を用いた条件付きニューラルビデオ符号化
Authors: Henan Wang, Xiaohan Pan, Runsen Feng, Zongyu Guo, Zhibo Chen
Abstract要約: この文書は、元々2024 Data Compression Conferenceで発表された1ページの要約の拡張版である。本稿では,2024年の学習画像圧縮(CLIC)における課題のビデオトラックについて述べる。
参考スコア（独自算出の注目度）: 18.708228331281536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This document is an expanded version of a one-page abstract originally presented at the 2024 Data Compression Conference. It describes our proposed method for the video track of the Challenge on Learned Image Compression (CLIC) 2024. Our scheme follows the typical hybrid coding framework with some novel techniques. Firstly, we adopt Spynet network to produce accurate motion vectors for motion estimation. Secondly, we introduce the context mining scheme with conditional frame coding to fully exploit the spatial-temporal information. As for the low target bitrates given by CLIC, we integrate spatial-temporal super-resolution modules to improve rate-distortion performance. Our team name is IMCLVC.
Abstract（参考訳）: この文書は、元々2024 Data Compression Conferenceで発表された1ページの要約の拡張版である。本稿では,2024年の学習画像圧縮(CLIC)における課題のビデオトラックについて述べる。我々の手法は、いくつかの新しい手法で典型的なハイブリッドコーディングフレームワークに従う。まず,spynet networkを用いて,動き推定のための正確な動きベクトルを生成する。次に,条件付きフレーム符号化を用いたコンテキストマイニング方式を導入し,空間時間情報を完全に活用する。 CLICが与える低目標ビットレートについては,空間時空間超解像モジュールを統合してレート歪み性能を向上する。チーム名はIMCLVC。

関連論文リスト

FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文参考訳（メタデータ） (2023-10-19T13:32:38Z)
Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文参考訳（メタデータ） (2023-09-15T05:31:53Z)
Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文参考訳（メタデータ） (2023-03-08T13:15:19Z)
Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2023-02-26T08:02:39Z)
Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。 NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文参考訳（メタデータ） (2022-07-14T09:17:00Z)
Learned Video Compression via Heterogeneous Deformable Compensation Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-07-11T02:31:31Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文参考訳（メタデータ） (2021-04-21T17:10:53Z)
Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。時間合成と空間超解像はこの課題に関係している。 LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-26T16:59:48Z)
A Foreground-background Parallel Compression with Residual Encoding for Surveillance Video [46.49202082648197]
本稿では,ビデオの前景と背景を別々に抽出・圧縮するビデオ圧縮手法を提案する。提案手法では、HECVデータセット上で同じPSNR(36dB)を達成するために、従来のアルゴリズムであるH.265より69.5%少ないbpp (bits per pixel) を必要とする。
論文参考訳（メタデータ） (2020-01-18T03:35:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。