論文の概要: Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines
- arxiv url: http://arxiv.org/abs/2406.12367v1
- Date: Tue, 18 Jun 2024 07:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:06:22.316500
- Title: Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines
- Title(参考訳): 機械用ビデオ符号化におけるコンテンツ固有フィルタの競合学習
- Authors: Honglei Zhang, Jukka I. Ahonen, Nam Le, Ruiying Yang, Francesco Cricri,
- Abstract要約: 本稿では,人間指向のビデオ/イメージをマシンビジョンタスクに適応させるために,コンテンツ固有の後処理フィルタの協調最適化の有効性について検討する。
本稿では,競争学習の原則に基づく新しい学習戦略を提案する。
OpenImagesデータセットの実験では、BDレートが-41.3%から-44.6%に改善された。
- 参考スコア(独自算出の注目度): 5.155405463139862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the efficacy of jointly optimizing content-specific post-processing filters to adapt a human oriented video/image codec into a codec suitable for machine vision tasks. By observing that artifacts produced by video/image codecs are content-dependent, we propose a novel training strategy based on competitive learning principles. This strategy assigns training samples to filters dynamically, in a fuzzy manner, which further optimizes the winning filter on the given sample. Inspired by simulated annealing optimization techniques, we employ a softmax function with a temperature variable as the weight allocation function to mitigate the effects of random initialization. Our evaluation, conducted on a system utilizing multiple post-processing filters within a Versatile Video Coding (VVC) codec framework, demonstrates the superiority of content-specific filters trained with our proposed strategies, specifically, when images are processed in blocks. Using VVC reference software VTM 12.0 as the anchor, experiments on the OpenImages dataset show an improvement in the BD-rate reduction from -41.3% and -44.6% to -42.3% and -44.7% for object detection and instance segmentation tasks, respectively, compared to independently trained filters. The statistics of the filter usage align with our hypothesis and underscore the importance of jointly optimizing filters for both content and reconstruction quality. Our findings pave the way for further improving the performance of video/image codecs.
- Abstract(参考訳): 本稿では,人間指向のビデオ/画像コーデックを機械ビジョンタスクに適したコーデックに適応させるために,コンテンツ固有のポストプロセッシングフィルタの協調最適化の有効性について検討する。
映像・画像コーデックが生成するアーティファクトがコンテンツに依存していることを観察することにより,競争的学習原理に基づく新たなトレーニング戦略を提案する。
この戦略は、トレーニングサンプルをファジィな方法で動的にフィルタに割り当て、与えられたサンプルの勝利フィルタをさらに最適化する。
シミュレーションアニーリング最適化手法に着想を得て, 温度変数を持つソフトマックス関数を重み付け関数として使用することにより, ランダム初期化の効果を緩和する。
Versatile Video Coding (VVC) コーデックフレームワーク内の複数の後処理フィルタを利用するシステムを用いて,提案手法で訓練したコンテンツ固有フィルタの優位性を実証した。
VVC参照ソフトウェアであるVTM 12.0をアンカーとして使用し、OpenImagesデータセットの実験では、独立に訓練されたフィルタと比較して、オブジェクト検出とインスタンスセグメンテーションのそれぞれで-41.3%と-44.6%から-42.3%に改善された。
フィルタ使用率の統計は,我々の仮説と一致し,コンテントと再構成品質の両面において,共同最適化フィルタの重要性を浮き彫りにしている。
本研究は,ビデオ・画像コーデックの性能向上の道を開くものである。
関連論文リスト
- RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - In-Loop Filtering via Trained Look-Up Tables [45.6756570330982]
インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。
ルックアップテーブル(LUT)を用いたループ内フィルタリング手法を提案する。
実験結果から,提案手法の超高速・超高速・高速モードは平均0.13%/0.34%/0.51%,0.10%/0.27%/0.39%のBDレート低下を達成できた。
論文 参考訳(メタデータ) (2024-07-15T17:25:42Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Adapting Learned Image Codecs to Screen Content via Adjustable
Transformations [1.9249287163937978]
本稿では,基礎となるベースラインの動作フローを変更することなく,パラメータ化および可逆線形変換を符号化パイプラインに導入することを提案する。
我々のエンドツーエンドのトレーニングソリューションは、ベースラインのコンプレックスと比較して最大10%のSC圧縮を削減できる。
論文 参考訳(メタデータ) (2024-02-27T14:34:14Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。