論文の概要: Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization
- arxiv url: http://arxiv.org/abs/2504.02216v1
- Date: Thu, 03 Apr 2025 02:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:22.825294
- Title: Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization
- Title(参考訳): 特徴保存速度歪み最適化による機械画像符号化
- Authors: Samuel Fernández-Menduiña, Eduardo Pavez, Antonio Ortega,
- Abstract要約: 本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。
我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。
SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
- 参考スコア(独自算出の注目度): 27.97760974010369
- License:
- Abstract: Many images and videos are primarily processed by computer vision algorithms, involving only occasional human inspection. When this content requires compression before processing, e.g., in distributed applications, coding methods must optimize for both visual quality and downstream task performance. We first show that, given the features obtained from the original and the decoded images, an approach to reduce the effect of compression on a task loss is to perform rate-distortion optimization (RDO) using the distance between features as a distortion metric. However, optimizing directly such a rate-distortion trade-off requires an iterative workflow of encoding, decoding, and feature evaluation for each coding parameter, which is computationally impractical. We address this problem by simplifying the RDO formulation to make the distortion term computable using block-based encoders. We first apply Taylor's expansion to the feature extractor, recasting the feature distance as a quadratic metric with the Jacobian matrix of the neural network. Then, we replace the linearized metric with a block-wise approximation, which we call input-dependent squared error (IDSE). To reduce computational complexity, we approximate IDSE using Jacobian sketches. The resulting loss can be evaluated block-wise in the transform domain and combined with the sum of squared errors (SSE) to address both visual quality and computer vision performance. Simulations with AVC across multiple feature extractors and downstream neural networks show up to 10% bit-rate savings for the same computer vision accuracy compared to RDO based on SSE, with no decoder complexity overhead and just a 7% encoder complexity increase.
- Abstract(参考訳): 多くの画像やビデオは、主にコンピュータビジョンアルゴリズムによって処理され、人間の検査のみを含む。
このコンテンツが処理の前に圧縮を必要とする場合、例えば分散アプリケーションでは、コーディング方法は視覚的品質とダウンストリームのタスクパフォーマンスの両方に最適化する必要がある。
まず、原画像と復号画像から得られた特徴から、圧縮がタスク損失に与える影響を減少させるアプローチとして、特徴間の距離を歪み距離として、レート歪み最適化(RDO)を行うことを示す。
しかし、このようなレート歪みトレードオフを直接最適化するには、計算的に非現実的な各符号化パラメータの符号化、復号化、特徴評価の反復的なワークフローが必要となる。
ブロックベースのエンコーダを用いて、歪み項を計算可能にするために、RDOの定式化を単純化することで、この問題に対処する。
まず、特徴抽出器にテイラーの拡張を適用し、ニューラルネットワークのヤコビ行列を用いて特徴距離を二次計量として再キャストする。
次に、線形化計量をブロックワイズ近似に置き換え、入出力依存二乗誤差(IDSE)と呼ぶ。
計算複雑性を低減するため,ヤコビアンスケッチを用いたIDSEを近似した。
得られた損失は変換領域においてブロック単位で評価することができ、視覚的品質とコンピュータビジョンの両方のパフォーマンスに対処するために2乗誤差(SSE)の合計と組み合わせることができる。
複数の特徴抽出器と下流ニューラルネットワークにまたがるAVCによるシミュレーションでは、SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートのセーブが可能で、デコーダの複雑さのオーバーヘッドがなく、エンコーダの複雑性がわずか7%増加した。
関連論文リスト
- RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。