論文の概要: Visual Analysis Motivated Rate-Distortion Model for Image Coding
- arxiv url: http://arxiv.org/abs/2104.10315v1
- Date: Wed, 21 Apr 2021 02:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:18:13.729385
- Title: Visual Analysis Motivated Rate-Distortion Model for Image Coding
- Title(参考訳): 画像符号化のためのビジュアル解析によるレートゆらぎモデル
- Authors: Zhimeng Huang, Chuanmin Jia, Shanshe Wang, Siwei Ma
- Abstract要約: 本稿では,VVC(Versatile Video Coding)イントラ圧縮のための視覚解析によるレート歪みモデルを提案する。
提案モデルには,新しいレート割当戦略と新しい歪み測定モデルという2つの大きな貢献がある。
- 参考スコア(独自算出の注目度): 34.76677294980739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimized for pixel fidelity metrics, images compressed by existing image
codec are facing systematic challenges when used for visual analysis tasks,
especially under low-bitrate coding. This paper proposes a visual
analysis-motivated rate-distortion model for Versatile Video Coding (VVC) intra
compression. The proposed model has two major contributions, a novel rate
allocation strategy and a new distortion measurement model. We first propose
the region of interest for machine (ROIM) to evaluate the degree of importance
for each coding tree unit (CTU) in visual analysis. Then, a novel CTU-level bit
allocation model is proposed based on ROIM and the local texture
characteristics of each CTU. After an in-depth analysis of multiple distortion
models, a visual analysis friendly distortion criteria is subsequently proposed
by extracting deep feature of each coding unit (CU). To alleviate the problem
of lacking spatial context information when calculating the distortion of each
CU, we finally propose a multi-scale feature distortion (MSFD) metric using
different neighboring pixels by weighting the extracted deep features in each
scale. Extensive experimental results show that the proposed scheme could
achieve up to 28.17\% bitrate saving under the same analysis performance among
several typical visual analysis tasks such as image classification, object
detection, and semantic segmentation.
- Abstract(参考訳): ピクセル忠実度メトリクスに最適化された既存のイメージコーデックによって圧縮された画像は、視覚分析タスク、特に低ビットのコーディングに使用する場合の体系的な課題に直面している。
本稿では,多用途ビデオ符号化(vvc)イントラ圧縮のための視覚的解析動機付レートゆがみモデルを提案する。
提案モデルには,新しいレート割当戦略と新しい歪み測定モデルという2つの大きな貢献がある。
まず、視覚解析において、各コードツリー単位(CTU)の重要度を評価するために、機械の関心領域(ROIM)を提案する。
次に、ROIMと各CTUの局所的なテクスチャ特性に基づいて、新しいCTUレベルのビット割り当てモデルを提案する。
複数歪みモデルの詳細な解析の後、各符号化単位(CU)の深い特徴を抽出することにより、視覚解析に優しい歪み基準を提案する。
各cuの歪みを計算する際に空間的コンテキスト情報を欠く問題を解消するために,各スケールで抽出された深層特徴を重み付けて,隣接画素が異なるマルチスケール特徴歪(msfd)メトリックを提案する。
広範な実験結果から,画像分類,物体検出,意味セグメンテーションなどの一般的なビジュアル解析タスクにおいて,同一解析性能下で最大28.17\%のビットレート節約を実現することができた。
関連論文リスト
- Perceptual-Distortion Balanced Image Super-Resolution is a Multi-Objective Optimization Problem [23.833099288826045]
画素ベースの回帰損失を用いた単一画像超解法(SISR)モデルのトレーニングは、高い歪みメトリクススコアを得ることができる。
しかし、高周波の詳細の回復が不十分なため、しばしばぼやけた画像が生じる。
本稿では,Multi-Objective Optimization(MOO)をSISRモデルのトレーニングプロセスに組み込んで,知覚品質と歪みのバランスをとる手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T02:14:04Z) - A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Deep Learning-Based Defect Classification and Detection in SEM Images [1.9206693386750882]
特に、異なるResNet、VGGNetアーキテクチャをバックボーンとして使用するRetinaNetモデルをトレーニングする。
そこで本研究では,異なるモデルからの出力予測を組み合わせることで,欠陥の分類と検出に優れた性能を実現するための選好に基づくアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2022-06-20T16:34:11Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Gigapixel Histopathological Image Analysis using Attention-based Neural
Networks [7.1715252990097325]
圧縮経路と学習経路からなるCNN構造を提案する。
本手法は,グローバル情報とローカル情報の両方を統合し,入力画像のサイズに関して柔軟であり,弱い画像レベルラベルのみを必要とする。
論文 参考訳(メタデータ) (2021-01-25T10:18:52Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。