論文の概要: Fast-OMRA: Fast Online Motion Resolution Adaptation for Neural B-Frame Coding
- arxiv url: http://arxiv.org/abs/2410.21763v1
- Date: Tue, 29 Oct 2024 05:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:32.593546
- Title: Fast-OMRA: Fast Online Motion Resolution Adaptation for Neural B-Frame Coding
- Title(参考訳): Fast-OMRA:ニューラルBフレーム符号化のための高速オンラインモーションレゾリューション適応
- Authors: Sang NguyenQuang, Zong-Lin Gao, Kuan-Wei Ho, Xiem HoangVan, Wen-Hsiao Peng,
- Abstract要約: 階層的時間予測を持つほとんどの学習されたBフレームコーデックは、トレーニングとテストに使用されるGOP(Group-of-Pictures)サイズの違いによって生じるドメインシフトの問題に悩まされる。
この領域シフト問題を解決する効果的な戦略の1つは、モーション推定のためにビデオフレームをダウンサンプルすることである。
この研究は、ダウンサンプリング係数を決定するための軽量な分類器を導入している。
- 参考スコア(独自算出の注目度): 5.815424522820603
- License:
- Abstract: Most learned B-frame codecs with hierarchical temporal prediction suffer from the domain shift issue caused by the discrepancy in the Group-of-Pictures (GOP) size used for training and test. As such, the motion estimation network may fail to predict large motion properly. One effective strategy to mitigate this domain shift issue is to downsample video frames for motion estimation. However, finding the optimal downsampling factor involves a time-consuming rate-distortion optimization process. This work introduces lightweight classifiers to determine the downsampling factor. To strike a good rate-distortion-complexity trade-off, our classifiers observe simple state signals, including only the coding and reference frames, to predict the best downsampling factor. We present two variants that adopt binary and multi-class classifiers, respectively. The binary classifier adopts the Focal Loss for training, classifying between motion estimation at high and low resolutions. Our multi-class classifier is trained with novel soft labels incorporating the knowledge of the rate-distortion costs of different downsampling factors. Both variants operate as add-on modules without the need to re-train the B-frame codec. Experimental results confirm that they achieve comparable coding performance to the brute-force search methods while greatly reducing computational complexity.
- Abstract(参考訳): 階層的時間予測を持つほとんどの学習されたBフレームコーデックは、トレーニングとテストに使用されるGOP(Group-of-Pictures)サイズの違いによって生じるドメインシフトの問題に悩まされる。
これにより、動き推定ネットワークは、大動きを適切に予測できない可能性がある。
この領域シフト問題を解決する効果的な戦略の1つは、モーション推定のためにビデオフレームをダウンサンプルすることである。
しかし、最適なダウンサンプリング係数を見つけるには、時間を要する速度歪み最適化プロセスが必要となる。
この研究は、ダウンサンプリング係数を決定するための軽量な分類器を導入している。
我々の分類器は、符号化フレームと参照フレームのみを含む単純な状態信号を観測し、最良のダウンサンプリング係数を予測する。
バイナリとマルチクラスの分類器をそれぞれ採用した2つの変種を示す。
バイナリ分類器は訓練にFocal Lossを採用し、高解像度と低解像度の動作推定を分類する。
マルチクラス分類器は、異なるダウンサンプリング要因の速度歪みコストの知識を取り入れた、新しいソフトラベルを用いて訓練されている。
どちらのバージョンも、Bフレームコーデックを再トレーニングすることなくアドオンモジュールとして動作する。
実験結果から, 計算複雑性を大幅に低減しつつ, ブルートフォース探索法と同等の符号化性能を達成できることが確認された。
関連論文リスト
- SignSGD with Federated Voting [69.06621279967865]
SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。
我々は、テキストフェデレート投票(signSGD-FV)を用いた新しいサインSGDを提案する。
連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。
提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。
論文 参考訳(メタデータ) (2024-03-25T02:32:43Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。