論文の概要: Robust and Resource-efficient Machine Learning Aided Viewport Prediction
in Virtual Reality
- arxiv url: http://arxiv.org/abs/2212.09945v1
- Date: Tue, 20 Dec 2022 01:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:08:41.943070
- Title: Robust and Resource-efficient Machine Learning Aided Viewport Prediction
in Virtual Reality
- Title(参考訳): 仮想現実におけるロバストでリソース効率のよい機械学習によるビューポート予測
- Authors: Yuang Jiang, Konstantinos Poularakis, Diego Kiedanski, Sastry
Kompella, Leandros Tassiulas
- Abstract要約: パノラマ動画のストリーミングにおける大きな問題の1つは、パノラマ動画が従来のものよりもはるかに大きいことである。
資源消費を減らすため、研究者は利用者のビューポートを予測する方法を提案した。
通常、過去のユーザ体験に基づいて事前訓練された少数のモデルのみが、すべてのユーザに対して予測に適用されると仮定される。
本稿では,メタラーニングに基づくビューポート予測パラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.497457236097704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 360-degree panoramic videos have gained considerable attention in recent
years due to the rapid development of head-mounted displays (HMDs) and
panoramic cameras. One major problem in streaming panoramic videos is that
panoramic videos are much larger in size compared to traditional ones.
Moreover, the user devices are often in a wireless environment, with limited
battery, computation power, and bandwidth. To reduce resource consumption,
researchers have proposed ways to predict the users' viewports so that only
part of the entire video needs to be transmitted from the server. However, the
robustness of such prediction approaches has been overlooked in the literature:
it is usually assumed that only a few models, pre-trained on past users'
experiences, are applied for prediction to all users. We observe that those
pre-trained models can perform poorly for some users because they might have
drastically different behaviors from the majority, and the pre-trained models
cannot capture the features in unseen videos. In this work, we propose a novel
meta learning based viewport prediction paradigm to alleviate the worst
prediction performance and ensure the robustness of viewport prediction. This
paradigm uses two machine learning models, where the first model predicts the
viewing direction, and the second model predicts the minimum video prefetch
size that can include the actual viewport. We first train two meta models so
that they are sensitive to new training data, and then quickly adapt them to
users while they are watching the videos. Evaluation results reveal that the
meta models can adapt quickly to each user, and can significantly increase the
prediction accuracy, especially for the worst-performing predictions.
- Abstract(参考訳): 近年、ヘッドマウントディスプレイ(HMD)やパノラマカメラの急速な開発により、360度パノラマビデオが注目されている。
パノラマ動画のストリーミングにおける大きな問題の1つは、パノラマ動画が従来のものよりもはるかに大きいことだ。
さらに、ユーザデバイスは、バッテリ、計算能力、帯域幅が制限されたワイヤレス環境にあることが多い。
リソース消費を減らすために、研究者はユーザーのビューポートを予測する方法を提案し、ビデオの一部だけがサーバから送信される必要がある。
しかし,このような予測手法の頑健さは文献では見過ごされており,過去のユーザの経験に基づいて事前学習したモデルのみを全ユーザへの予測に適用することが一般的である。
これらの事前学習されたモデルは、多くのユーザーと大きく異なる行動をとる可能性があるため、一部のユーザーにとってはパフォーマンスが悪く、未熟なビデオでは機能をキャプチャできない。
本研究では,メタラーニングに基づくビューポート予測パラダイムを提案し,最悪の予測性能を緩和し,ビューポート予測の堅牢性を確保する。
このパラダイムでは、第1のモデルが視聴方向を予測する2つの機械学習モデルを使用し、第2のモデルが実際のビューポートを含む最小ビデオプリフェッチサイズを予測する。
まず、新しいトレーニングデータに敏感な2つのメタモデルをトレーニングし、ビデオを見ながらユーザーにすばやく適応させます。
評価結果から, メタモデルは各ユーザに対して迅速に適応でき, 予測精度を大幅に向上させることができることがわかった。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - How many Observations are Enough? Knowledge Distillation for Trajectory
Forecasting [31.57539055861249]
現在の最先端モデルは、通常、過去の追跡された場所の「歴史」に頼り、将来の位置の妥当なシーケンスを予測する。
我々は,教師ネットワークから学生ネットワークへの知識伝達を可能にする新しい蒸留戦略を考案した。
適切に定義された教師の監督により、学生ネットワークが最先端のアプローチと相容れないように実行できることが示される。
論文 参考訳(メタデータ) (2022-03-09T15:05:39Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。