論文の概要: Emerging Standards for Machine-to-Machine Video Coding
- arxiv url: http://arxiv.org/abs/2512.10230v1
- Date: Thu, 11 Dec 2025 02:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.169554
- Title: Emerging Standards for Machine-to-Machine Video Coding
- Title(参考訳): 機械間ビデオ符号化の新しい規格
- Authors: Md Eimran Hossain Eimon, Velibor Adzic, Hari Kalva, Borko Furht,
- Abstract要約: Video Coding for Machines (VCM) は、ピクセル領域にタスク対応のコーディングツールを適用するように設計されている。
Feature Coding for Machines (FCM) は中間的ニューラル特徴を圧縮するように設計されている。
FCMは計算量を大幅に削減しつつ、エッジに近い精度を維持することができる。
- 参考スコア(独自算出の注目度): 0.9368339942045111
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machines are increasingly becoming the primary consumers of visual data, yet most deployments of machine-to-machine systems still rely on remote inference where pixel-based video is streamed using codecs optimized for human perception. Consequently, this paradigm is bandwidth intensive, scales poorly, and exposes raw images to third parties. Recent efforts in the Moving Picture Experts Group (MPEG) redesigned the pipeline for machine-to-machine communication: Video Coding for Machines (VCM) is designed to apply task-aware coding tools in the pixel domain, and Feature Coding for Machines (FCM) is designed to compress intermediate neural features to reduce bitrate, preserve privacy, and support compute offload. Experiments show that FCM is capable of maintaining accuracy close to edge inference while significantly reducing bitrate. Additional analysis of H.26X codecs used as inner codecs in FCM reveals that H.265/High Efficiency Video Coding (HEVC) and H.266/Versatile Video Coding (VVC) achieve almost identical machine task performance, with an average BD-Rate increase of 1.39% when VVC is replaced with HEVC. In contrast, H.264/Advanced Video Coding (AVC) yields an average BD-Rate increase of 32.28% compared to VVC. However, for the tracking task, the impact of codec choice is minimal, with HEVC outperforming VVC and achieving BD Rate of -1.81% and 8.79% for AVC, indicating that existing hardware for already deployed codecs can support machine-to-machine communication without degrading performance.
- Abstract(参考訳): マシンはますます視覚データの主要な消費者になりつつあるが、機械間システムのデプロイの多くは、人間の知覚に最適化されたコーデックを使用してピクセルベースのビデオがストリーミングされるリモート推論に依存している。
その結果、このパラダイムは帯域幅が集中的であり、スケーラビリティが悪く、生画像をサードパーティに公開する。
ビデオ・コーディング・フォー・マシンズ(VCM)は、ピクセル領域にタスク対応のコーディングツールを適用するように設計されており、フィーチャー・コーディング・フォー・マシンズ(FCM)は、中間神経機能を圧縮してビットレートを減らし、プライバシーを保ち、計算オフロードをサポートするように設計されている。
実験により、FCMは、ビットレートを著しく低減しつつ、エッジ推論に近い精度を維持することができることが示された。
FCMの内部コーデックとして使用されるH.26Xコーデックのさらなる分析により、H.265/High Efficiency Video Coding (HEVC) とH.266/Versatile Video Coding (VVC) がほぼ同一のマシンタスク性能を達成し、VVCをHEVCに置き換えたときの平均BDレートは1.39%増加した。
対照的に、H.264/Advanced Video Coding (AVC) は、VVCと比較して平均32.28%のBDレート増加をもたらす。
しかし、追跡タスクではコーデックの選択の影響は最小限であり、HEVCはVVCを上回り、AVCのBDレートは-1.81%と8.79%である。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。