論文の概要: Task-Aware Encoder Control for Deep Video Compression
- arxiv url: http://arxiv.org/abs/2404.04848v1
- Date: Sun, 7 Apr 2024 07:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:20:53.183017
- Title: Task-Aware Encoder Control for Deep Video Compression
- Title(参考訳): ディープビデオ圧縮のためのタスク認識エンコーダ制御
- Authors: Xingtong Ge, Jixiang Luo, Xinjie Zhang, Tongda Xu, Guo Lu, Dailan He, Jing Geng, Yan Wang, Jun Zhang, Hongwei Qin,
- Abstract要約: 本稿では,機械用ディープビデオ圧縮のための革新的なエンコーダコントローラを提案する。
モード予測とグループ・オブ・ピクチャーズ(GoP)選択モジュールを備える。
提案手法は符号化段階における制御を集中化し,様々なタスクの調整を可能にする。
- 参考スコア(独自算出の注目度): 26.778793247958053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior research on deep video compression (DVC) for machine tasks typically necessitates training a unique codec for each specific task, mandating a dedicated decoder per task. In contrast, traditional video codecs employ a flexible encoder controller, enabling the adaptation of a single codec to different tasks through mechanisms like mode prediction. Drawing inspiration from this, we introduce an innovative encoder controller for deep video compression for machines. This controller features a mode prediction and a Group of Pictures (GoP) selection module. Our approach centralizes control at the encoding stage, allowing for adaptable encoder adjustments across different tasks, such as detection and tracking, while maintaining compatibility with a standard pre-trained DVC decoder. Empirical evidence demonstrates that our method is applicable across multiple tasks with various existing pre-trained DVCs. Moreover, extensive experiments demonstrate that our method outperforms previous DVC by about 25% bitrate for different tasks, with only one pre-trained decoder.
- Abstract(参考訳): マシンタスクのためのディープビデオ圧縮(DVC)に関する以前の研究は、通常、特定のタスクごとに独自のコーデックをトレーニングし、タスクごとに専用のデコーダを強制する必要がある。
対照的に、従来のビデオコーデックはフレキシブルなエンコーダコントローラを採用しており、モード予測のようなメカニズムによって単一のコーデックを異なるタスクに適応させることができる。
このことからインスピレーションを得て,機械用ディープビデオ圧縮のための革新的なエンコーダコントローラを導入する。
モード予測とグループ・オブ・ピクチャーズ(GoP)選択モジュールを備える。
提案手法は,符号化段階での制御を集中化し,検出やトラッキングなど,さまざまなタスクに適応可能なエンコーダ調整を実現するとともに,標準の事前学習DVCデコーダとの互換性を維持する。
実験的な証拠は,本手法が既存の訓練済みDVCを用いて,複数のタスクにまたがって適用可能であることを示している。
さらに,本手法が従来のDVCよりも25%ほど優れており,事前学習したデコーダが1つしかないことが実証された。
関連論文リスト
- DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Deep Video Codec Control for Vision Models [33.95098277668838]
標準符号化ビデオはディープビジョンモデルの性能を著しく低下させることを示した。
本稿では、帯域制限と下流の深い視力性能の両方を考慮した、エンド・ツー・エンドの学習可能なDeep Video制御について述べる。
論文 参考訳(メタデータ) (2023-08-30T16:44:38Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。
提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文 参考訳(メタデータ) (2021-04-16T19:05:26Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。