論文の概要: Video Coding for Machines with Feature-Based Rate-Distortion
Optimization
- arxiv url: http://arxiv.org/abs/2203.05890v1
- Date: Fri, 11 Mar 2022 12:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:48:55.045554
- Title: Video Coding for Machines with Feature-Based Rate-Distortion
Optimization
- Title(参考訳): 特徴量ゆらぎ最適化を用いた機械の映像符号化
- Authors: Kristian Fischer, Fabian Brand, Christian Herglotz, Andr\'e Kaup
- Abstract要約: ニューラルネットワークの安定した改善により、ますます多くのマルチメディアデータが人間によって観測されなくなる。
本稿では,コーディング性能の向上を目的とした標準準拠機能ベースのRDO(FRDO)を提案する。
提案したFRDOとHFRDOのハイブリッドバージョンを比較し,特徴空間の歪みを従来のRDOと比較した。
- 参考スコア(独自算出の注目度): 7.804710977378487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common state-of-the-art video codecs are optimized to deliver a low bitrate
by providing a certain quality for the final human observer, which is achieved
by rate-distortion optimization (RDO). But, with the steady improvement of
neural networks solving computer vision tasks, more and more multimedia data is
not observed by humans anymore, but directly analyzed by neural networks. In
this paper, we propose a standard-compliant feature-based RDO (FRDO) that is
designed to increase the coding performance, when the decoded frame is analyzed
by a neural network in a video coding for machine scenario. To that extent, we
replace the pixel-based distortion metrics in conventional RDO of VTM-8.0 with
distortion metrics calculated in the feature space created by the first layers
of a neural network. Throughout several tests with the segmentation network
Mask R-CNN and single images from the Cityscapes dataset, we compare the
proposed FRDO and its hybrid version HFRDO with different distortion measures
in the feature space against the conventional RDO. With HFRDO, up to 5.49 %
bitrate can be saved compared to the VTM-8.0 implementation in terms of
Bj{\o}ntegaard Delta Rate and using the weighted average precision as quality
metric. Additionally, allowing the encoder to vary the quantization parameter
results in coding gains for the proposed HFRDO of up 9.95 % compared to
conventional VTM.
- Abstract(参考訳): 一般的な最先端ビデオコーデックは、レート歪み最適化(RDO)によって達成される最終観察者に一定の品質を提供することにより、低ビットレートを提供するよう最適化される。
しかし、コンピュータビジョンタスクを解くニューラルネットワークの着実に改善され、ますます多くのマルチメディアデータが人間によって観測されるようになり、ニューラルネットワークによって直接分析されるようになりました。
本稿では,機械シナリオのビデオ符号化において,デコードされたフレームをニューラルネットワークで解析した場合に,符号化性能を向上させるための標準準拠機能ベースのRDO(FRDO)を提案する。
そのために、VTM-8.0の従来のRDOにおける画素ベースの歪み測定を、ニューラルネットワークの第1層によって生成される特徴空間で計算された歪み測定に置き換える。
セグメンテーションネットワークMask R-CNNとCityscapesデータセットからの単一画像によるいくつかのテストを通して、提案したFRDOとHFRDOのハイブリッドバージョンを比較し、特徴空間における従来のRDOに対して異なる歪み測定を行った。
HFRDOでは、Bj{\o}ntegaard Delta RateによるVTM-8.0実装と比較して最大5.49 %のビットレートを保存でき、重み付き平均精度を品質指標として用いることができる。
さらに、エンコーダが量子化パラメータを変更できるようにすることで、提案するhfrdoは従来のvtmと比較して9.95%向上する。
関連論文リスト
- ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Perceptually-inspired super-resolution of compressed videos [18.72040343193715]
空間分解能適応は、符号化効率を高めるためにしばしばビデオ圧縮に使用される技法である。
近年の研究では、畳み込みニューラルネットワーク(CNN)に基づく高度な超解像法を用いて、再構築品質をさらに向上させている。
本稿では,CNNモデルを用いた圧縮映像の空間的アップサンプリングのために,知覚にインスパイアされた超解像法(M-SRGAN)を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:50:24Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Parallelized Rate-Distortion Optimized Quantization Using Deep Learning [9.886383889250064]
RDOQはH.264/AVC、H.265/HEVC、VP9、AV1といった最近のビデオ圧縮標準の符号化性能において重要な役割を果たしている。
この研究は、オフラインの教師付きトレーニング中にトレードオフレートと歪みを学習するニューラルネットワークベースのアプローチを用いて、この制限に対処する。
論文 参考訳(メタデータ) (2020-12-11T14:28:30Z) - A Variational Auto-Encoder Approach for Image Transmission in Wireless
Channel [4.82810058837951]
本稿では,変分オートエンコーダの性能について検討し,その結果を標準オートエンコーダと比較する。
実験により,SSIMは受信機における再構成画像の品質を視覚的に向上することを示した。
論文 参考訳(メタデータ) (2020-10-08T13:35:38Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。