論文の概要: New VVC profiles targeting Feature Coding for Machines
- arxiv url: http://arxiv.org/abs/2512.08227v1
- Date: Tue, 09 Dec 2025 04:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.804572
- Title: New VVC profiles targeting Feature Coding for Machines
- Title(参考訳): マシン向け特徴符号化をターゲットとした新しいVVCプロファイル
- Authors: Md Eimran Hossain Eimon, Ashan Perera, Juan Merlos, Velibor Adzic, Hari Kalva,
- Abstract要約: 中間機能は抽象的でスパースで、タスク固有であり、知覚の忠実さは無関係である。
本稿では,MPEG-AI Feature Coding for Machines (FCM) 規格の下で,VVC(Versatile Video Coding) を用いてこれらの特徴を圧縮する方法について検討する。
これらの知見に基づき、我々は、Fast、Fast、Fast、Fastestという3つの軽量なVVCプロファイルを提案する。
- 参考スコア(独自算出の注目度): 0.5437050212139086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern video codecs have been extensively optimized to preserve perceptual quality, leveraging models of the human visual system. However, in split inference systems-where intermediate features from neural network are transmitted instead of pixel data-these assumptions no longer apply. Intermediate features are abstract, sparse, and task-specific, making perceptual fidelity irrelevant. In this paper, we investigate the use of Versatile Video Coding (VVC) for compressing such features under the MPEG-AI Feature Coding for Machines (FCM) standard. We perform a tool-level analysis to understand the impact of individual coding components on compression efficiency and downstream vision task accuracy. Based on these insights, we propose three lightweight essential VVC profiles-Fast, Faster, and Fastest. The Fast profile provides 2.96% BD-Rate gain while reducing encoding time by 21.8%. Faster achieves a 1.85% BD-Rate gain with a 51.5% speedup. Fastest reduces encoding time by 95.6% with only a 1.71% loss in BD-Rate.
- Abstract(参考訳): 現代のビデオコーデックは、人間の視覚システムのモデルを利用して、知覚品質を維持するために広範囲に最適化されている。
しかし、分割推論システムでは、ニューラルネットワークから中間的な特徴がピクセルデータの代わりに伝達される。
中間機能は抽象的でスパースで、タスク固有であり、知覚の忠実さは無関係である。
本稿では,MPEG-AI Feature Coding for Machines (FCM) 規格の下で,VVC(Versatile Video Coding) を用いてこれらの特徴を圧縮する方法について検討する。
圧縮効率と下流視覚タスクの精度に対する個々の符号化部品の影響を理解するためのツールレベル解析を行う。
これらの知見に基づき、我々は、Fast、Fast、Fast、Fastestという3つの軽量なVVCプロファイルを提案する。
Fastプロファイルは2.96%のBDレートゲインを提供し、エンコーディング時間を21.8%削減している。
より高速にBDレートが1.85%上昇し、51.5%のスピードアップを達成した。
Fastestは、BD-Rateの1.71%の損失しかなく、エンコード時間を95.6%短縮する。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - Pruned Lightweight Encoders for Computer Vision [0.0]
ASTC と JPEG XS の符号化構成は、低レイテンシを確保するために、近接センサエッジデバイスで使用できることを示す。
ASTC圧縮によるmIoU(mIoU)劣化の分類精度とセグメンテーション平均値は,それぞれ4.9-5.0ポイント(pp)と4.4-4.0ppに低下した。
符号化速度の面では、ASTCエンコーダの実装はJPEGよりも2.3倍高速である。
論文 参考訳(メタデータ) (2022-11-23T17:11:48Z) - AlphaVC: High-Performance and Efficient Learned Video Compression [4.807439168741098]
コンディションIフレームをGoPの第1フレームとして導入し、再構成された品質を安定させ、ビットレートを節約する。
第二に,デコーダの複雑さを増大させることなく相互予測の精度を向上させるために,エンコーダ側の画素間動作予測手法を提案する。
第3に,性能向上だけでなく,エントロピー符号化の実行時間を大幅に削減する確率ベースのエントロピースキップ手法を提案する。
論文 参考訳(メタデータ) (2022-07-29T13:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。