論文の概要: Rate distortion optimization over large scale video corpus with machine
learning
- arxiv url: http://arxiv.org/abs/2008.12408v1
- Date: Thu, 27 Aug 2020 23:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:45:08.813809
- Title: Rate distortion optimization over large scale video corpus with machine
learning
- Title(参考訳): 機械学習を用いた大規模ビデオコーパスの速度歪み最適化
- Authors: Sam John, Akshay Gadde and Balu Adsumilli
- Abstract要約: 本稿では,大規模ビデオコーパス上でのアロケーションを効率よく検出する手法を提案する。
提案手法は, コーパス内に動画をクラスタリングすることにより, ビデオがR-D特性に類似していることを示す。
- 参考スコア(独自算出の注目度): 8.116858454428094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an efficient codec-agnostic method for bitrate allocation over a
large scale video corpus with the goal of minimizing the average bitrate
subject to constraints on average and minimum quality. Our method clusters the
videos in the corpus such that videos within one cluster have similar
rate-distortion (R-D) characteristics. We train a support vector machine
classifier to predict the R-D cluster of a video using simple video complexity
features that are computationally easy to obtain. The model allows us to
classify a large sample of the corpus in order to estimate the distribution of
the number of videos in each of the clusters. We use this distribution to find
the optimal encoder operating point for each R-D cluster. Experiments with AV1
encoder show that our method can achieve the same average quality over the
corpus with $22\%$ less average bitrate.
- Abstract(参考訳): 提案手法は, 平均ビットレートを最小化し, 平均および最小品質の制約を最小化することを目的とした, 大規模ビデオコーパス上のビットレート割り当ての効率的なコーデック非依存手法である。
提案手法では,同一クラスタ内の動画がr-d特性を持つようにコーパス内に動画を集積する。
ビデオのr-dクラスタを予測するために,計算が容易な簡単なビデオ複雑性機能を用いて,サポートベクターマシン分類器を訓練する。
このモデルでは,各クラスタ内のビデオ数の分布を推定するために,コーパスの大規模なサンプルを分類することができる。
この分布を用いて,各r-dクラスタの最適エンコーダ動作点を求める。
AV1エンコーダを用いた実験により,平均ビットレートを2,2\%以下でコーパス上で同じ平均品質が得られることがわかった。
関連論文リスト
- EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。
本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。
最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文 参考訳(メタデータ) (2024-11-25T12:01:57Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Smoothed Gaussian Mixture Models for Video Classification and
Recommendation [10.119117405418868]
SGMM(S smoothed Gaussian mixed Model)と呼ばれる新しいクラスタ・アンド・アグリゲート法を提案する。
YouTube-8M分類タスクの広範な実験を通じて、SGMM/DSGMMはVLAD/NetVLADよりも一貫して優れていますが、統計的に有意なマージンを示しています。
論文 参考訳(メタデータ) (2020-12-17T06:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。