論文の概要: Object Detection in the DCT Domain: is Luminance the Solution?
- arxiv url: http://arxiv.org/abs/2006.05732v3
- Date: Wed, 14 Jul 2021 08:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:58:30.748657
- Title: Object Detection in the DCT Domain: is Luminance the Solution?
- Title(参考訳): dct領域におけるオブジェクト検出:luminanceはソリューションか?
- Authors: Benjamin Deguerre, Clement Chatelain, Gilles Gasso
- Abstract要約: 本稿では,画像の圧縮表現を利用して,制約された資源条件で使用可能な物体検出を行う。
これにより、標準のRGBアーキテクチャと比較して1.7ドルの速度が向上し、検出性能は5.5%低下した。
- 参考スコア(独自算出の注目度): 4.361526134899725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in images has reached unprecedented performances. The
state-of-the-art methods rely on deep architectures that extract salient
features and predict bounding boxes enclosing the objects of interest. These
methods essentially run on RGB images. However, the RGB images are often
compressed by the acquisition devices for storage purpose and transfer
efficiency. Hence, their decompression is required for object detectors. To
gain in efficiency, this paper proposes to take advantage of the compressed
representation of images to carry out object detection usable in constrained
resources conditions.
Specifically, we focus on JPEG images and propose a thorough analysis of
detection architectures newly designed in regard of the peculiarities of the
JPEG norm. This leads to a $\times 1.7$ speed up in comparison with a standard
RGB-based architecture, while only reducing the detection performance by 5.5%.
Additionally, our empirical findings demonstrate that only part of the
compressed JPEG information, namely the luminance component, may be required to
match detection accuracy of the full input methods.
- Abstract(参考訳): 画像中の物体検出は前例のない性能に達した。
最先端の手法は、重要な特徴を抽出し、関心のあるオブジェクトを囲む境界ボックスを予測する、深いアーキテクチャに依存している。
これらの方法は基本的にRGBイメージ上で実行される。
しかし、RGB画像は記憶目的と転送効率のために取得装置によって圧縮されることが多い。
したがって、その減圧は物体検出器に要求される。
本稿では,画像の圧縮表現を利用して,制約された資源条件で使用可能な物体検出を実現することを提案する。
具体的には、JPEG画像に焦点をあて、JPEGノルムの特異性に関して新たに設計された検出アーキテクチャの徹底的な分析を提案する。
これは標準のrgbベースのアーキテクチャと比較して$\times 1.7$のスピードアップをもたらすが、検出性能は5.5%低下するだけである。
さらに,本実験の結果から,圧縮されたJPEG情報,すなわち輝度成分の一部のみが,全入力手法の検出精度に合致することが示唆された。
関連論文リスト
- Modular Anti-noise Deep Learning Network for Robotic Grasp Detection
Based on RGB Images [2.759223695383734]
本稿では,単一のRGB画像からつかむポーズを検出するための興味深いアプローチを提案する。
本稿では,認識とセマンティックセグメンテーションを付加したモジュール型学習ネットワークを提案する。
提案手法の有効性と精度を,実践的な実験と評価を通じて実証する。
論文 参考訳(メタデータ) (2023-10-30T02:01:49Z) - HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information [12.376615603048279]
HalluciDetは、オブジェクト検出のためのIR-RGB画像変換モデルである。
我々は、画像翻訳とIRの微調整のための最先端手法に対する我々のアプローチを実証的に比較した。
論文 参考訳(メタデータ) (2023-10-07T03:00:33Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - GenISP: Neural ISP for Low-Light Machine Cognition [19.444297600977546]
低照度環境では、原画像データを用いた物体検出器は、ISPパイプラインで処理された画像データを用いた検出器よりも堅牢である。
我々は、デバイスに依存しないカラー空間にカラー空間変換を明示的に組み込んだ、マシン認知のための最小限のニューラルISPパイプラインGenISPを提案する。
論文 参考訳(メタデータ) (2022-05-07T17:17:24Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Deep Learning Based Image Retrieval in the JPEG Compressed Domain [0.0]
本稿では,DCT係数を入力とし,JPEG圧縮領域のグローバルおよびローカルな特徴を直接抽出し,正確な画像検索を行う画像検索統合モデルを提案する。
提案手法は,RGB特徴を平均精度に言及した入力として用いた現在のDELGモデルとよく似ている。
論文 参考訳(メタデータ) (2021-07-08T07:30:03Z) - Cascade Graph Neural Networks for RGB-D Salient Object Detection [41.57218490671026]
色情報と深度情報の両方を用いて,RGB-D画像に対する正当性物体検出(SOD)の問題点を考察する。
この2つのデータソース間の相互利益を総合的に蒸留し推論できる統合フレームワークであるCascade Graph Neural Networks(Cas-Gnn)を紹介する。
Cas-Gnnは、いくつかの広く使用されているベンチマークにおいて、既存のRGB-DSODアプローチよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-08-07T10:59:04Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。