論文の概要: A Perspective on Deep Vision Performance with Standard Image and Video Codecs
- arxiv url: http://arxiv.org/abs/2404.12330v1
- Date: Thu, 18 Apr 2024 16:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:52:16.606745
- Title: A Perspective on Deep Vision Performance with Standard Image and Video Codecs
- Title(参考訳): 標準画像とビデオコーデックを用いたディープビジョン性能の展望
- Authors: Christoph Reich, Oliver Hahn, Daniel Cremers, Stefan Roth, Biplob Debnath,
- Abstract要約: エッジデバイスや携帯電話などのリソース制約のあるハードウェアは、ディープビジョンモデルにおける推論に必要な計算リソースを提供するために、クラウドサーバーに依存していることが多い。
本稿では,ディープビジョンパイプラインにおける標準化コーデックの導入がもたらす意味について検討する。
JPEGとH.264の符号化により、幅広い視覚タスクやモデルにおける精度が大幅に低下することがわかった。
- 参考スコア(独自算出の注目度): 41.73262031925552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Resource-constrained hardware, such as edge devices or cell phones, often rely on cloud servers to provide the required computational resources for inference in deep vision models. However, transferring image and video data from an edge or mobile device to a cloud server requires coding to deal with network constraints. The use of standardized codecs, such as JPEG or H.264, is prevalent and required to ensure interoperability. This paper aims to examine the implications of employing standardized codecs within deep vision pipelines. We find that using JPEG and H.264 coding significantly deteriorates the accuracy across a broad range of vision tasks and models. For instance, strong compression rates reduce semantic segmentation accuracy by more than 80% in mIoU. In contrast to previous findings, our analysis extends beyond image and action classification to localization and dense prediction tasks, thus providing a more comprehensive perspective.
- Abstract(参考訳): エッジデバイスや携帯電話などのリソース制約のあるハードウェアは、ディープビジョンモデルにおける推論に必要な計算リソースを提供するために、クラウドサーバーに依存していることが多い。
しかし、エッジやモバイルデバイスからクラウドサーバに画像やビデオデータを転送するには、ネットワークの制約に対処するコーディングが必要である。
JPEGやH.264のような標準化されたコーデックの使用は一般的であり、相互運用性を確保するために必要である。
本稿では,ディープビジョンパイプラインにおける標準化コーデックの導入がもたらす意味について検討する。
JPEGとH.264の符号化により、幅広い視覚タスクやモデルにおける精度が大幅に低下することがわかった。
例えば、強い圧縮速度は、mIoUのセマンティックセグメンテーションの精度を80%以上削減する。
従来の知見とは対照的に,我々の分析は画像や行動の分類を超えて,局所化や密集予測タスクにまで及んでいるため,より包括的な視点を提供することができる。
関連論文リスト
- Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Scalable Human-Machine Point Cloud Compression [29.044369073873465]
本稿では,分類の機械的タスクに特化した,スケーラブルなポイントクラウドデータを提供するとともに,人間の視聴のメカニズムも提供する。
提案した拡張性では、"base"ビットストリームはマシンタスクをサポートし、"enhancement"ビットストリームは、人間の視聴のための入力再構成性能を改善するために使用される。
論文 参考訳(メタデータ) (2024-02-19T20:43:10Z) - Learned Point Cloud Compression for Classification [35.103437828235826]
ディープラーニングは、分類、オブジェクト検出、セグメンテーションといったマシンビジョンタスクを3Dポイントクラウドデータ上で実行するために、ますます使われています。
分類の機械的タスクに高度に特化している新しい点雲を提示する。
特に、ModelNet40データセット上の特殊化されていないコーデックに対して、BDビットレートを93%削減する。
論文 参考訳(メタデータ) (2023-08-11T06:28:19Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Enhanced Standard Compatible Image Compression Framework based on
Auxiliary Codec Networks [8.440333621142226]
Auxiliary Codec Networks (ACNs) に基づく新しい標準互換画像圧縮フレームワークを提案する。
ACNは、既存の画像劣化操作を模倣するように設計されており、コンパクトな表現ネットワークにより正確な勾配を提供する。
本稿では,JPEGおよび高効率ビデオ符号化(HEVC)標準に基づく提案フレームワークが,既存の画像圧縮アルゴリズムを標準互換性で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-30T15:42:06Z) - Learning to Improve Image Compression without Changing the Standard
Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。
具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。
JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文 参考訳(メタデータ) (2020-09-27T19:24:42Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。