論文の概要: Neural B-Frame Coding: Tackling Domain Shift Issues with Lightweight Online Motion Resolution Adaptation
- arxiv url: http://arxiv.org/abs/2511.18724v1
- Date: Mon, 24 Nov 2025 03:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.998698
- Title: Neural B-Frame Coding: Tackling Domain Shift Issues with Lightweight Online Motion Resolution Adaptation
- Title(参考訳): ニューラルBフレーム符号化:軽量オンラインモーションレゾリューション適応を用いたドメインシフト問題への対処
- Authors: Sang NguyenQuang, Xiem HoangVan, Wen-Hsiao Peng,
- Abstract要約: 一般的な解決策は、動き推定中にビデオフレームをダウンサンプリングすることで、大きな動きを小さな動きに変換することである。
この研究は、ダウンサンプリング因子を予測するための軽量な分類器を導入している。
それらは、電流および参照フレームからの単純な状態信号を利用して、計算コストと平衡レート歪み性能を利用する。
- 参考スコア(独自算出の注目度): 8.348269612691707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned B-frame codecs with hierarchical temporal prediction often encounter the domain-shift issue due to mismatches between the Group-of-Pictures (GOP) sizes for training and testing, leading to inaccurate motion estimates, particularly for large motion. A common solution is to turn large motion into small motion by downsampling video frames during motion estimation. However, determining the optimal downsampling factor typically requires costly rate-distortion optimization. This work introduces lightweight classifiers to predict downsampling factors. These classifiers leverage simple state signals from current and reference frames to balance rate-distortion performance with computational cost. Three variants are proposed: (1) a binary classifier (Bi-Class) trained with Focal Loss to choose between high and low resolutions, (2) a multi-class classifier (Mu-Class) trained with novel soft labels based on rate-distortion costs, and (3) a co-class approach (Co-Class) that combines the predictive capability of the multi-class classifier with the selective search of the binary classifier. All classifier methods can work seamlessly with existing B-frame codecs without requiring codec retraining. Experimental results show that they achieve coding performance comparable to exhaustive search methods while significantly reducing computational complexity. The code is available at: https://github.com/NYCU-MAPL/Fast-OMRA.git.
- Abstract(参考訳): 階層的時間的予測を持つ学習されたBフレームコーデックは、トレーニングとテストのためのGOP(Group-of-Pictures)サイズ間のミスマッチによってドメインシフトの問題にしばしば遭遇し、特に大きな動きに対して不正確な動き推定をもたらす。
一般的な解決策は、動き推定中にビデオフレームをダウンサンプリングすることで、大きな動きを小さな動きに変換することである。
しかし、最適なダウンサンプリング係数を決定するには、通常、コストのかかる速度歪みの最適化が必要である。
この研究は、ダウンサンプリング因子を予測するための軽量な分類器を導入している。
これらの分類器は、電流および参照フレームからの単純な状態信号を利用して、計算コストと速度歪み性能のバランスをとる。
1)高分解能と低分解能のどちらかを選択するために、Focal Lossで訓練されたバイナリ分類器(Biクラス)、(2)レート歪みのコストに基づいて、新しいソフトラベルで訓練されたマルチクラス分類器(Muクラス)、(3)多クラス分類器の予測能力とバイナリ分類器の選択探索を組み合わせたコクラスアプローチ(Coクラス)の3つの変種が提案されている。
すべての分類法は、コーデックの再訓練を必要とせずに既存のBフレームコーデックとシームレスに動作する。
実験の結果,計算複雑性を著しく低減しつつ,徹底的な探索手法に匹敵する符号化性能が得られた。
コードはhttps://github.com/NYCU-MAPL/Fast-OMRA.gitで入手できる。
関連論文リスト
- GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - Fast-OMRA: Fast Online Motion Resolution Adaptation for Neural B-Frame Coding [5.815424522820603]
階層的時間予測を持つほとんどの学習されたBフレームコーデックは、トレーニングとテストに使用されるGOP(Group-of-Pictures)サイズの違いによって生じるドメインシフトの問題に悩まされる。
この領域シフト問題を解決する効果的な戦略の1つは、モーション推定のためにビデオフレームをダウンサンプルすることである。
この研究は、ダウンサンプリング係数を決定するための軽量な分類器を導入している。
論文 参考訳(メタデータ) (2024-10-29T05:57:32Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer [112.95747173442754]
数ショットのセマンティックセグメンテーションモデルは典型的にはCNNエンコーダ、CNNデコーダ、単純な分類器から構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
本稿では,最も単純なコンポーネントである分類器にのみ焦点をあてて,メタ学習タスクの簡略化を提案する。
論文 参考訳(メタデータ) (2021-08-06T10:20:08Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates [7.1273332508471725]
本稿では,映像分類における視聴覚情報の利用について,毎秒1フレームのサンプリングレートで検討する。
音声情報と視覚情報の両方を符号化するためのTBEN(temporal Bilinear Networks)を提案する。
論文 参考訳(メタデータ) (2020-12-18T14:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。