論文の概要: BLINC: Lightweight Bimodal Learning for Low-Complexity VVC Intra Coding
- arxiv url: http://arxiv.org/abs/2201.07823v1
- Date: Wed, 19 Jan 2022 19:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 04:18:32.054872
- Title: BLINC: Lightweight Bimodal Learning for Low-Complexity VVC Intra Coding
- Title(参考訳): blinc:低複雑さvvcイントラコーディングのための軽量バイモーダル学習
- Authors: Farhad Pakdaman, Mohammad Ali Adelimanesh, Mahmoud Reza Hashemi
- Abstract要約: Versatile Video Coding (VVC) は,前任のHEVC (High Efficiency Video Coding) と比較して,ほぼ2倍の符号化効率を実現している。
本稿では,2つの特徴を共同で個別に活用し,イントラコーディング決定を簡素化する,新しい機械学習手法を提案する。
- 参考スコア(独自算出の注目度): 5.629161809575015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The latest video coding standard, Versatile Video Coding (VVC), achieves
almost twice coding efficiency compared to its predecessor, the High Efficiency
Video Coding (HEVC). However, achieving this efficiency (for intra coding)
requires 31x computational complexity compared to HEVC, making it challenging
for low power and real-time applications. This paper, proposes a novel machine
learning approach that jointly and separately employs two modalities of
features, to simplify the intra coding decision. First a set of features are
extracted that use the existing DCT core of VVC, to assess the texture
characteristics, and forms the first modality of data. This produces high
quality features with almost no overhead. The distribution of intra modes at
the neighboring blocks is also used to form the second modality of data, which
provides statistical information about the frame. Second, a two-step feature
reduction method is designed that reduces the size of feature set, such that a
lightweight model with a limited number of parameters can be used to learn the
intra mode decision task. Third, three separate training strategies are
proposed (1) an offline training strategy using the first (single) modality of
data, (2) an online training strategy that uses the second (single) modality,
and (3) a mixed online-offline strategy that uses bimodal learning. Finally, a
low-complexity encoding algorithms is proposed based on the proposed learning
strategies. Extensive experimental results show that the proposed methods can
reduce up to 24% of encoding time, with a negligible loss of coding efficiency.
Moreover, it is demonstrated how a bimodal learning strategy can boost the
performance of learning. Lastly, the proposed method has a very low
computational overhead (0.2%), and uses existing components of a VVC encoder,
which makes it much more practical compared to competing solutions.
- Abstract(参考訳): 最新のビデオコーディング標準であるVersatile Video Coding (VVC)は、前機種であるHEVC(High Efficiency Video Coding)と比較して、コーディング効率をほぼ2倍に向上させる。
しかし、この効率(イントラコーディング)を達成するにはHEVCに比べて31倍の計算量を必要とするため、低消費電力およびリアルタイムアプリケーションでは困難である。
本稿では,2つの特徴を共同で個別に活用し,イントラコーディング決定を簡素化する,新しい機械学習手法を提案する。
まず、VVCの既存のDCTコアを用いて、テクスチャ特性を評価し、データの最初のモダリティを形成する一連の特徴を抽出する。
これにより、ほとんどオーバーヘッドなく高品質な機能が得られる。
隣接するブロックにおけるイントラモードの分布は、フレームに関する統計情報を提供するデータの第2のモダリティを形成するためにも用いられる。
第二に、モード内決定タスクの学習に限られたパラメータの軽量モデルを使用することができるように、特徴セットのサイズを小さくする2段階の特徴量削減法が設計されている。
第3に,1)データの第1(シングル)モダリティを用いたオフライントレーニング戦略,(2)第2(シングル)モダリティを用いたオンライントレーニング戦略,(3)バイモーダル学習を用いた混合オンラインオフライン戦略の3つの異なるトレーニング戦略を提案する。
最後に,提案手法に基づく低複雑さ符号化アルゴリズムを提案する。
広範な実験結果から,提案手法では符号化時間の最大24%削減が可能となり,符号化効率が低下することが判明した。
さらに,バイモーダル学習戦略によって学習性能が向上することを示す。
最後に,提案手法は計算オーバーヘッドが非常に低く(0.2%),VVCエンコーダの既存コンポーネントを使用するため,競合するソリューションに比べてはるかに実用的である。
関連論文リスト
- A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Large-scale Transfer Learning for Low-resource Spoken Language
Understanding [31.013231069185387]
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。
言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
論文 参考訳(メタデータ) (2020-08-13T03:43:05Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。