論文の概要: Multi-task Just Recognizable Difference for Video Coding for Machines: Database, Model, and Coding Application
- arxiv url: http://arxiv.org/abs/2604.09421v1
- Date: Fri, 10 Apr 2026 15:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.936271
- Title: Multi-task Just Recognizable Difference for Video Coding for Machines: Database, Model, and Coding Application
- Title(参考訳): マルチタスクによる機械用ビデオ符号化の差分認識:データベース,モデル,および符号化アプリケーション
- Authors: Junqi Liu, Yun Zhang, Xiaoxia Huang, Long Xu, Weisi Lin,
- Abstract要約: Just Recognizable difference (JRD)は、可視性しきい値モデリングを通じて、マシンビジョンのコーディング効率を高めるが、現在はシングルタスクのシナリオに制限されている。
本稿では,映像符号化のためのマルチタスクJRDデータセットとアトリビュート支援MT-JRDモデルを提案する。
- 参考スコア(独自算出の注目度): 45.69832738305963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Just Recognizable Difference (JRD) boosts coding efficiency for machine vision through visibility threshold modeling, but is currently limited to a single-task scenario. To address this issue, we propose a Multi-Task JRD (MT-JRD) dataset and an Attribute-assisted MT-JRD (AMT-JRD) model for Video Coding for Machines (VCM), enhancing both prediction accuracy and coding efficiency. First, we construct a dataset comprising 27,264 JRD annotations from machines, supporting three representative tasks including object detection, instance segmentation, and keypoint detection. Secondly, we propose the AMT-JRD prediction model, which integrates Generalized Feature Extraction Module (GFEM) and Specialized Feature Extraction Module (SFEM) to facilitate joint learning across multiple tasks. Thirdly, we innovatively incorporate object attribute information into object-wise JRD prediction through the Attribute Feature Fusion Module (AFFM), which introduces prior knowledge about object size and location. This design effectively compensates for the limitations of relying solely on image features and enhances the model's capacity to represent the perceptual mechanisms of machine vision. Finally, we apply the AMT-JRD model to VCM, where the accurately predicted JRDs are applied to reduce the coding bit rate while preserving accuracy across multiple machine vision tasks. Extensive experimental results demonstrate that AMT-JRD achieves precise and robust multi-task prediction with a mean absolute error of 3.781 and error variance of 5.332 across three tasks, outperforming the state-of-the-art single-task prediction model by 6.7% and 6.3%, respectively. Coding experiments further reveal that compared to the baseline VVC and JPEG, the AMT-JRD-based VCM improves an average of 3.861% and 7.886% Bjontegaard Delta-mean Average Precision (BD-mAP), respectively.
- Abstract(参考訳): Just Recognizable difference (JRD)は、可視性しきい値モデリングを通じて、マシンビジョンのコーディング効率を高めるが、現在はシングルタスクのシナリオに制限されている。
本稿では,ビデオ符号化のためのマルチタスクJRD(MT-JRD)データセットとアトリビュート支援MT-JRD(AMT-JRD)モデルを提案する。
まず、27,264個のJRDアノテーションからなるデータセットを構築し、オブジェクト検出、インスタンスセグメンテーション、キーポイント検出を含む3つの代表的なタスクをサポートする。
次に, 汎用特徴抽出モジュール (GFEM) と特殊特徴抽出モジュール (SFEM) を統合した AMT-JRD 予測モデルを提案する。
第3に,対象物の大きさと位置に関する事前知識を導入した属性特徴融合モジュール(AFFM)を通じて,オブジェクト属性情報をオブジェクト指向JRD予測に革新的に組み込む。
この設計は、画像の特徴にのみ依存する制限を効果的に補償し、マシンビジョンの知覚メカニズムを表現するためのモデルの能力を高める。
最後に、ATT-JRDモデルをVCMに適用し、正確に予測されたJRDを適用して、複数のマシンビジョンタスクにまたがる精度を維持しながら、符号化ビットレートを低減させる。
実験結果から,ATT-JRDは平均絶対誤差3.781,誤差分散5.332で高精度かつ堅牢なマルチタスク予測を実現し,最先端の単一タスク予測モデルを6.7%,かつ6.3%を上回った。
さらに、ベースラインのVVCとJPEGと比較して、ATT-JRDベースのVCMは平均3.861%と7.886%のBD-mAP(Bjontegaard Delta-mean Average Precision)を改善している。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - DT-JRD: Deep Transformer based Just Recognizable Difference Prediction Model for Video Coding for Machines [48.07705666485972]
Just Recognizable difference (JRD) は、機械ビジョンによって検出される最小の視覚差を表す。
本稿では,Deep Transformer-based JRD (DT-JRD) prediction model for Video Coding for Machines (VCM)を提案する。
正確に予測されたJRDは、機械作業の精度を維持しながら、符号化ビットレートを低減できる。
論文 参考訳(メタデータ) (2024-11-14T09:34:36Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [25.70995300410493]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。