Fugu-MT 論文翻訳(概要): RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

論文の概要: RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression

arxiv url: http://arxiv.org/abs/2501.12216v1
Date: Tue, 21 Jan 2025 15:36:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.704726
Title: RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression
Title（参考訳）: RL-RC-DoT:タスク対応ビデオ圧縮のためのブロックレベルRLエージェント
Authors: Uri Gadot, Assaf Shocher, Shie Mannor, Gal Chechik, Assaf Hallak,
Abstract要約: 自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
参考スコア（独自算出の注目度）: 68.31184784672227
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video encoders optimize compression for human perception by minimizing reconstruction error under bit-rate constraints. In many modern applications such as autonomous driving, an overwhelming majority of videos serve as input for AI systems performing tasks like object recognition or segmentation, rather than being watched by humans. It is therefore useful to optimize the encoder for a downstream task instead of for perceptual image quality. However, a major challenge is how to combine such downstream optimization with existing standard video encoders, which are highly efficient and popular. Here, we address this challenge by controlling the Quantization Parameters (QPs) at the macro-block level to optimize the downstream task. This granular control allows us to prioritize encoding for task-relevant regions within each frame. We formulate this optimization problem as a Reinforcement Learning (RL) task, where the agent learns to balance long-term implications of choosing QPs on both task performance and bit-rate constraints. Notably, our policy does not require the downstream task as an input during inference, making it suitable for streaming applications and edge devices such as vehicles. We demonstrate significant improvements in two tasks, car detection, and ROI (saliency) encoding. Our approach improves task performance for a given bit rate compared to traditional task agnostic encoding methods, paving the way for more efficient task-aware video compression.
Abstract（参考訳）: ビデオエンコーダは、ビットレート制約下での再構成誤差を最小限に抑え、人間の知覚に対する圧縮を最適化する。自律運転のような現代の多くのアプリケーションでは、ビデオの大部分は、人間が見るのではなく、物体認識やセグメンテーションのようなタスクを実行するAIシステムの入力として機能している。したがって、知覚的な画質ではなく、下流タスクのためにエンコーダを最適化することが有用である。しかし、このようなダウンストリーム最適化を既存の標準ビデオエンコーダと組み合わせることが大きな課題である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。この粒度制御により、各フレーム内のタスク関連領域のエンコーディングを優先順位付けできる。本稿では、この最適化問題を強化学習タスク(RL)として定式化し、タスク性能とビットレート制約の両方においてQPを選択することの長期的影響のバランスをとることを学習する。特に、当社のポリシーでは、推論中の入力として下流タスクを必要とせず、ストリーミングアプリケーションや車両などのエッジデバイスに適しています。車両検出とROIエンコーディングの2つのタスクにおいて,大幅な改善が示された。提案手法は,従来のタスク非依存の符号化手法と比較して,与えられたビットレートのタスク性能を向上し,より効率的なタスク対応ビデオ圧縮を実現する。

関連論文リスト

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文参考訳（メタデータ） (2026-02-13T18:57:31Z)
Multi-Objective Pareto-Front Optimization for Efficient Adaptive VVC Streaming [3.81254285545374]
本稿では,品質単調でコンテンツ依存の Versatile Video Coding ladder を構築するための多目的フレームワークを提案する。適応ストリーミングにおける品質の単調性制約の下でバリアリングはしごを構築して,一貫したクオリティ・オブ・エクスペリエンス(QoE)を実現する大規模なUHDデータセット(Inter-4K)を用いて実験を行い,PSNR,VMAF,XPSNRを用いて評価した。
論文参考訳（メタデータ） (2026-01-15T17:23:39Z)
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文参考訳（メタデータ） (2025-04-14T17:59:06Z)
Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。 SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文参考訳（メタデータ） (2025-04-03T02:11:26Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文参考訳（メタデータ） (2025-02-28T06:32:23Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文参考訳（メタデータ） (2024-07-10T06:36:45Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文参考訳（メタデータ） (2023-08-22T19:09:56Z)
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-28T22:18:14Z)
End-to-end optimized image compression for machines, a study [3.0448872422956437]
画像とビデオのコンテンツのシェアは、人間が見るのではなく、機械によって分析される。従来のコーディングツールは、もともと人間の知覚のために設計されたマシンタスクを専門化するのが難しい。ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと、エンドツーエンドで共同でトレーニングすることができる。
論文参考訳（メタデータ） (2020-11-10T20:10:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。