論文の概要: DT-JRD: Deep Transformer based Just Recognizable Difference Prediction Model for Video Coding for Machines
- arxiv url: http://arxiv.org/abs/2411.09308v1
- Date: Thu, 14 Nov 2024 09:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:49.645617
- Title: DT-JRD: Deep Transformer based Just Recognizable Difference Prediction Model for Video Coding for Machines
- Title(参考訳): DT-JRD:Deep Transformer を用いた機械用ビデオ符号化における識別可能な差分予測モデル
- Authors: Junqi Liu, Yun Zhang, Xiaoqi Wang, Xu Long, Sam Kwong,
- Abstract要約: Just Recognizable difference (JRD) は、機械ビジョンによって検出される最小の視覚差を表す。
本稿では,Deep Transformer-based JRD (DT-JRD) prediction model for Video Coding for Machines (VCM)を提案する。
正確に予測されたJRDは、機械作業の精度を維持しながら、符号化ビットレートを低減できる。
- 参考スコア(独自算出の注目度): 48.07705666485972
- License:
- Abstract: Just Recognizable Difference (JRD) represents the minimum visual difference that is detectable by machine vision, which can be exploited to promote machine vision oriented visual signal processing. In this paper, we propose a Deep Transformer based JRD (DT-JRD) prediction model for Video Coding for Machines (VCM), where the accurately predicted JRD can be used reduce the coding bit rate while maintaining the accuracy of machine tasks. Firstly, we model the JRD prediction as a multi-class classification and propose a DT-JRD prediction model that integrates an improved embedding, a content and distortion feature extraction, a multi-class classification and a novel learning strategy. Secondly, inspired by the perception property that machine vision exhibits a similar response to distortions near JRD, we propose an asymptotic JRD loss by using Gaussian Distribution-based Soft Labels (GDSL), which significantly extends the number of training labels and relaxes classification boundaries. Finally, we propose a DT-JRD based VCM to reduce the coding bits while maintaining the accuracy of object detection. Extensive experimental results demonstrate that the mean absolute error of the predicted JRD by the DT-JRD is 5.574, outperforming the state-of-the-art JRD prediction model by 13.1%. Coding experiments shows that comparing with the VVC, the DT-JRD based VCM achieves an average of 29.58% bit rate reduction while maintaining the object detection accuracy.
- Abstract(参考訳): Just Recognizable difference (JRD)は、機械ビジョンによって検出できる最小の視覚差であり、機械ビジョン指向の視覚信号処理を促進するために利用することができる。
本稿では,Deep Transformer based JRD (DT-JRD) prediction model for Video Coding for Machines (VCM)を提案する。
まず,JRD予測をマルチクラス分類としてモデル化し,改良された埋め込み,コンテンツと歪み特徴抽出,マルチクラス分類,新しい学習戦略を統合したDT-JRD予測モデルを提案する。
第2に, 機械ビジョンがJRD近傍の歪みに類似した応答を示すという認識特性に着想を得て, ガウス分布に基づくソフトラベル(GDSL)を用いた漸近的JRD損失を提案し, トレーニングラベルの数を大幅に拡大し, 分類境界を緩和する。
最後に、DT-JRDに基づくVCMを提案し、オブジェクト検出の精度を維持しながら符号化ビットを削減する。
DT-JRDにより予測されたJRDの平均絶対誤差は5.574であり、最先端のJRD予測モデルより13.1%上回った。
VVCと比較して、DT-JRDベースのVCMは、オブジェクト検出精度を維持しながら平均29.58%のビットレート削減を達成する。
関連論文リスト
- Run-time Introspection of 2D Object Detection in Automated Driving
Systems Using Learning Representations [13.529124221397822]
ディープニューラルネットワーク(DNN)に基づく2次元物体検出のための新しいイントロスペクションソリューションを提案する。
KITTIとBDDのデータセットで評価された1段階および2段階のオブジェクト検出器を用いて,2次元オブジェクト検出におけるエラー検出のためのSOTAイントロスペクション機構を実装した。
性能評価の結果,提案手法はSOTA法より優れており,BDDデータセットのエラー率を9%から17%まで絶対的に削減できることがわかった。
論文 参考訳(メタデータ) (2024-03-02T10:56:14Z) - Semantic Segmentation in Satellite Hyperspectral Imagery by Deep Learning [54.094272065609815]
本稿では1D-Justo-LiuNetという軽量な1D-CNNモデルを提案する。
1D-Justo-LiuNetは、全てのテストモデルの中で最小のモデルサイズ (4,563 パラメータ) を持つ最大精度 (0.93) を達成する。
論文 参考訳(メタデータ) (2023-10-24T21:57:59Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors
for Change Detection [31.125812018296127]
Deno Diffusion Probabilistic Model (DDPM) の事前学習による変化検出のための新しいアプローチを提案する。
DDPMは、訓練画像を徐々にマルコフ連鎖を用いてガウス分布に変換することにより、トレーニングデータ分布を学習する。
推論(サンプリング)中に、トレーニング分布に近い多様なサンプルセットを生成することができる。
LEVIR-CD, WHU-CD, DSIFN-CD, CDDデータセットを用いて行った実験により,提案手法は既存の変化検出法よりもF1スコアで大幅に優れており, I。
論文 参考訳(メタデータ) (2022-06-23T17:58:29Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Transformer Transforms Salient Object Detection and Camouflaged Object
Detection [43.79585695098729]
本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
論文 参考訳(メタデータ) (2021-04-20T17:12:51Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。