論文の概要: Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization
- arxiv url: http://arxiv.org/abs/2504.02216v2
- Date: Tue, 26 Aug 2025 16:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 19:49:13.977155
- Title: Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization
- Title(参考訳): 特徴保存速度歪み最適化による機械画像符号化
- Authors: Samuel Fernández-Menduiña, Eduardo Pavez, Antonio Ortega,
- Abstract要約: 本研究では,与えられたタスク損失に対する圧縮の効果を低減させる手法として,特徴量間の距離を用いてレート歪み(RDO)を行う方法を示す。
我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。
複数の特徴抽出器と下流ネットワークに変換されたHEVCを用いたシミュレーションでは、同じタスクの精度で最大で17%のビットレートのセーブが可能であることを示す。
- 参考スコア(独自算出の注目度): 31.210700220124192
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many images and videos are primarily processed by computer vision algorithms, involving only occasional human inspection. When this content requires compression before processing, e.g., in distributed applications, coding methods must optimize for both visual quality and downstream task performance. We first show theoretically that an approach to reduce the effect of compression for a given task loss is to perform rate-distortion optimization (RDO) using the distance between features, obtained from the original and the decoded images, as a distortion metric. However, optimizing directly such a rate-distortion objective is computationally impractical because it requires iteratively encoding and decoding the entire image-plus feature evaluation-for each possible coding configuration. We address this problem by simplifying the RDO formulation to make the distortion term computable using block-based encoders. We first apply Taylor's expansion to the feature extractor, recasting the feature distance as a quadratic metric involving the Jacobian matrix of the neural network. Then, we replace the linearized metric with a block-wise approximation, which we call input-dependent squared error (IDSE). To make the metric computable, we approximate IDSE using sketches of the Jacobian. The resulting loss can be evaluated block-wise in the transform domain and combined with the sum of squared errors (SSE) to address both visual quality and computer vision performance. Simulations with AVC and HEVC across multiple feature extractors and downstream networks show up to 17 % bit-rate savings for the same task accuracy compared to RDO based on SSE, with no decoder complexity overhead and a small (7.86 %) encoder complexity increase.
- Abstract(参考訳): 多くの画像やビデオは、主にコンピュータビジョンアルゴリズムによって処理され、人間の検査のみを含む。
このコンテンツが処理の前に圧縮を必要とする場合、例えば分散アプリケーションでは、コーディング方法は視覚的品質とダウンストリームのタスクパフォーマンスの両方に最適化する必要がある。
まず,元の画像から得られた特徴量と復号画像から得られる特徴量との距離を歪み量としてレート歪み最適化(RDO)を行うことで,与えられたタスク損失に対する圧縮の効果を減少させる手法を理論的に示す。
しかし、このような速度歪みの目的を直接最適化することは、可能となる各符号化構成に対して、画像+特徴評価全体を反復的に符号化および復号する必要があるため、計算的に非現実的である。
ブロックベースのエンコーダを用いて、歪み項を計算可能にするために、RDOの定式化を単純化することで、この問題に対処する。
まず、特徴抽出器にテイラーの拡張を適用し、特徴距離をニューラルネットワークのヤコビ行列を含む二次計量として再キャストする。
次に、線形化計量をブロックワイズ近似に置き換え、入出力依存二乗誤差(IDSE)と呼ぶ。
計量を計算可能にするために、ヤコビアンのスケッチを用いてIDSEを近似する。
得られた損失は変換領域においてブロック単位で評価することができ、視覚的品質とコンピュータビジョンの両方のパフォーマンスに対処するために2乗誤差(SSE)の合計と組み合わせることができる。
複数の特徴抽出器とダウンストリームネットワークにまたがるAVCとHEVCのシミュレーションでは、SSEに基づくRDOと比較して17パーセントのビットレートの削減が可能であり、デコーダの複雑さのオーバーヘッドがなく、エンコーダの複雑さが小さく(7.86%)増加する。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Compression with Bayesian Implicit Neural Representations [16.593537431810237]
本稿では,データに変分ニューラルネットワークをオーバーフィッティングし,相対エントロピー符号化を用いて近似後重みサンプルを圧縮し,量子化やエントロピー符号化を行う。
実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-05-30T16:29:52Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。