Fugu-MT 論文翻訳(概要): Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines

論文の概要: Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines

arxiv url: http://arxiv.org/abs/2406.12367v1
Date: Tue, 18 Jun 2024 07:45:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 20:06:22.316500
Title: Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines
Title（参考訳）: 機械用ビデオ符号化におけるコンテンツ固有フィルタの競合学習
Authors: Honglei Zhang, Jukka I. Ahonen, Nam Le, Ruiying Yang, Francesco Cricri,
Abstract要約: 本稿では,人間指向のビデオ/イメージをマシンビジョンタスクに適応させるために,コンテンツ固有の後処理フィルタの協調最適化の有効性について検討する。本稿では,競争学習の原則に基づく新しい学習戦略を提案する。 OpenImagesデータセットの実験では、BDレートが-41.3%から-44.6%に改善された。
参考スコア（独自算出の注目度）: 5.155405463139862
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper investigates the efficacy of jointly optimizing content-specific post-processing filters to adapt a human oriented video/image codec into a codec suitable for machine vision tasks. By observing that artifacts produced by video/image codecs are content-dependent, we propose a novel training strategy based on competitive learning principles. This strategy assigns training samples to filters dynamically, in a fuzzy manner, which further optimizes the winning filter on the given sample. Inspired by simulated annealing optimization techniques, we employ a softmax function with a temperature variable as the weight allocation function to mitigate the effects of random initialization. Our evaluation, conducted on a system utilizing multiple post-processing filters within a Versatile Video Coding (VVC) codec framework, demonstrates the superiority of content-specific filters trained with our proposed strategies, specifically, when images are processed in blocks. Using VVC reference software VTM 12.0 as the anchor, experiments on the OpenImages dataset show an improvement in the BD-rate reduction from -41.3% and -44.6% to -42.3% and -44.7% for object detection and instance segmentation tasks, respectively, compared to independently trained filters. The statistics of the filter usage align with our hypothesis and underscore the importance of jointly optimizing filters for both content and reconstruction quality. Our findings pave the way for further improving the performance of video/image codecs.
Abstract（参考訳）: 本稿では,人間指向のビデオ/画像コーデックを機械ビジョンタスクに適したコーデックに適応させるために,コンテンツ固有のポストプロセッシングフィルタの協調最適化の有効性について検討する。映像・画像コーデックが生成するアーティファクトがコンテンツに依存していることを観察することにより,競争的学習原理に基づく新たなトレーニング戦略を提案する。この戦略は、トレーニングサンプルをファジィな方法で動的にフィルタに割り当て、与えられたサンプルの勝利フィルタをさらに最適化する。シミュレーションアニーリング最適化手法に着想を得て, 温度変数を持つソフトマックス関数を重み付け関数として使用することにより, ランダム初期化の効果を緩和する。 Versatile Video Coding (VVC) コーデックフレームワーク内の複数の後処理フィルタを利用するシステムを用いて,提案手法で訓練したコンテンツ固有フィルタの優位性を実証した。 VVC参照ソフトウェアであるVTM 12.0をアンカーとして使用し、OpenImagesデータセットの実験では、独立に訓練されたフィルタと比較して、オブジェクト検出とインスタンスセグメンテーションのそれぞれで-41.3%と-44.6%から-42.3%に改善された。フィルタ使用率の統計は,我々の仮説と一致し,コンテントと再構成品質の両面において,共同最適化フィルタの重要性を浮き彫りにしている。本研究は,ビデオ・画像コーデックの性能向上の道を開くものである。

関連論文リスト

RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳（メタデータ） (2025-01-21T15:36:08Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
In-Loop Filtering via Trained Look-Up Tables [45.6756570330982]
インループフィルタリング(ILF)は、画像/ビデオのコーディング標準におけるアーティファクトを取り除くための重要な技術である。ルックアップテーブル(LUT)を用いたループ内フィルタリング手法を提案する。実験結果から,提案手法の超高速・超高速・高速モードは平均0.13%/0.34%/0.51%,0.10%/0.27%/0.39%のBDレート低下を達成できた。
論文参考訳（メタデータ） (2024-07-15T17:25:42Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
Adapting Learned Image Codecs to Screen Content via Adjustable Transformations [1.9249287163937978]
本稿では,基礎となるベースラインの動作フローを変更することなく,パラメータ化および可逆線形変換を符号化パイプラインに導入することを提案する。我々のエンドツーエンドのトレーニングソリューションは、ベースラインのコンプレックスと比較して最大10%のSC圧縮を削減できる。
論文参考訳（メタデータ） (2024-02-27T14:34:14Z)
Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文参考訳（メタデータ） (2023-07-01T02:28:41Z)
End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文参考訳（メタデータ） (2021-12-17T14:30:22Z)
A Global Appearance and Local Coding Distortion based Fusion Framework for CNN based Filtering in Video Coding [15.778380865885842]
ループ内フィルタリングは、ブロックアーティファクトを削除するために再構成されたフレームを処理するためにビデオ符号化で使用される。本稿では,2つの側面からフィルタの問題に対処する。これは,破壊されたテクスチャに対するグローバルな外観復元と,固定された符号化パイプラインによる局所的な符号化歪み復元である。高レベルグローバル特徴ストリーム,高レベルローカル特徴ストリーム,低レベルローカル特徴ストリームを用いて3ストリームグローバル外観と局所符号化歪みに基づく融合ネットワークを開発した。
論文参考訳（メタデータ） (2021-06-24T03:08:44Z)
ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文参考訳（メタデータ） (2021-04-29T17:50:35Z)
Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文参考訳（メタデータ） (2021-04-08T05:46:38Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。