論文の概要: A Preprocessing Framework for Video Machine Vision under Compression
- arxiv url: http://arxiv.org/abs/2512.15331v1
- Date: Wed, 17 Dec 2025 11:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.960076
- Title: A Preprocessing Framework for Video Machine Vision under Compression
- Title(参考訳): 圧縮下におけるビデオマシンビジョンのための前処理フレームワーク
- Authors: Fei Zhao, Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang, Xiaodong Xie,
- Abstract要約: 本稿では,この課題に対処するために,マシンビジョンタスクに適したビデオ前処理フレームワークを提案する。
提案手法は,後続のタスクにおいて重要な情報を保持するニューラルプリプロセッサを組み込んでおり,その結果,レート精度が向上する。
- 参考スコア(独自算出の注目度): 26.253209831074184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a growing trend in compressing and transmitting videos from terminals for machine vision tasks. Nevertheless, most video coding optimization method focus on minimizing distortion according to human perceptual metrics, overlooking the heightened demands posed by machine vision systems. In this paper, we propose a video preprocessing framework tailored for machine vision tasks to address this challenge. The proposed method incorporates a neural preprocessor which retaining crucial information for subsequent tasks, resulting in the boosting of rate-accuracy performance. We further introduce a differentiable virtual codec to provide constraints on rate and distortion during the training stage. We directly apply widely used standard codecs for testing. Therefore, our solution can be easily applied to real-world scenarios. We conducted extensive experiments evaluating our compression method on two typical downstream tasks with various backbone networks. The experimental results indicate that our approach can save over 15% of bitrate compared to using only the standard codec anchor version.
- Abstract(参考訳): 機械ビジョンタスクのために端末から動画を圧縮・送信する傾向が強まっている。
それでも、ほとんどのビデオ符号化最適化手法は、人間の知覚的指標による歪みを最小限に抑えることに重点を置いており、マシンビジョンシステムによって引き起こされる要求の増大を見越している。
本稿では,この課題に対処するために,マシンビジョンタスクに適したビデオ前処理フレームワークを提案する。
提案手法は,後続のタスクにおいて重要な情報を保持するニューラルプリプロセッサを組み込んでおり,その結果,レート精度が向上する。
さらに、トレーニング段階におけるレートと歪みの制約を提供するために、微分可能な仮想コーデックを導入します。
テストに広く使われている標準コーデックを直接適用します。
したがって,本手法は実世界のシナリオに容易に適用できる。
各種バックボーンネットワークを用いた2つの典型的な下流タスクに対する圧縮手法の評価実験を行った。
実験結果から,標準のコーデックアンカー版よりも15%以上のビットレートを節約できることが示唆された。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - End-to-end optimized image compression for machines, a study [3.0448872422956437]
画像とビデオのコンテンツのシェアは、人間が見るのではなく、機械によって分析される。
従来のコーディングツールは、もともと人間の知覚のために設計されたマシンタスクを専門化するのが難しい。
ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと、エンドツーエンドで共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-10T20:10:43Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。