論文の概要: Self-Conditioned Probabilistic Learning of Video Rescaling
- arxiv url: http://arxiv.org/abs/2107.11639v1
- Date: Sat, 24 Jul 2021 15:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:08:54.365387
- Title: Self-Conditioned Probabilistic Learning of Video Rescaling
- Title(参考訳): ビデオリスケーリングの自己条件付き確率的学習
- Authors: Yuan Tian, Guo Lu, Xiongkuo Min, Zhaohui Che, Guangtao Zhai, Guodong
Guo, Zhiyong Gao
- Abstract要約: 本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
- 参考スコア(独自算出の注目度): 70.10092286301997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bicubic downscaling is a prevalent technique used to reduce the video storage
burden or to accelerate the downstream processing speed. However, the inverse
upscaling step is non-trivial, and the downscaled video may also deteriorate
the performance of downstream tasks. In this paper, we propose a
self-conditioned probabilistic framework for video rescaling to learn the
paired downscaling and upscaling procedures simultaneously. During the
training, we decrease the entropy of the information lost in the downscaling by
maximizing its probability conditioned on the strong spatial-temporal prior
information within the downscaled video. After optimization, the downscaled
video by our framework preserves more meaningful information, which is
beneficial for both the upscaling step and the downstream tasks, e.g., video
action recognition task. We further extend the framework to a lossy video
compression system, in which a gradient estimator for non-differential
industrial lossy codecs is proposed for the end-to-end training of the whole
system. Extensive experimental results demonstrate the superiority of our
approach on video rescaling, video compression, and efficient action
recognition tasks.
- Abstract(参考訳): ビキュービックダウンスケーリング(bicubic downscaling)は、ビデオストレージの負担軽減や下流処理速度の高速化に使用される一般的なテクニックである。
しかし、逆アップスケーリングステップは非自明であり、ダウンスケールされたビデオもダウンストリームタスクの性能を低下させる可能性がある。
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
学習中,ダウンスケール映像内の強空間-時間優先情報に基づく確率条件を最大化することにより,ダウンスケールで失われた情報のエントロピーを低減する。
最適化後、我々のフレームワークによるダウンスケールされたビデオは、より意味のある情報を保存し、アップスケーリングステップと下流タスク、例えばビデオアクション認識タスクの両方に有益である。
さらに、このフレームワークを損失ビデオ圧縮システムに拡張し、このシステム全体のエンドツーエンドトレーニングのために、非微分産業損失コーデックの勾配推定器を提案する。
大規模な実験結果から,ビデオ再スケーリング,ビデオ圧縮,効率的な行動認識タスクへのアプローチの優位性が示された。
関連論文リスト
- Uncertainty-Aware Deep Video Compression with Ensembles [24.245365441718654]
深層アンサンブルによる予測不確かさを効果的に把握できる不確実性対応ビデオ圧縮モデルを提案する。
我々のモデルは1080pのシーケンスに比べて20%以上効率良くビットを節約できる。
論文 参考訳(メタデータ) (2024-03-28T05:44:48Z) - Blurry Video Compression: A Trade-off between Visual Enhancement and
Data Compression [65.8148169700705]
既存のビデオ圧縮(VC)手法は主に、ビデオ内の連続フレーム間の空間的および時間的冗長性を減らすことを目的としている。
これまでの研究は、インスタント(既知の)露光時間やシャッタースピードなどの特定の設定で取得されたビデオに対して、顕著な成果を上げてきた。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
論文 参考訳(メタデータ) (2023-11-08T02:17:54Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。