論文の概要: Viewport-Aware Deep Reinforcement Learning Approach for 360$^o$ Video
Caching
- arxiv url: http://arxiv.org/abs/2003.08473v2
- Date: Fri, 10 Apr 2020 18:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:26:04.646216
- Title: Viewport-Aware Deep Reinforcement Learning Approach for 360$^o$ Video
Caching
- Title(参考訳): 360$^o$ビデオキャッシングのためのviewport-aware deep reinforcement learningアプローチ
- Authors: Pantelis Maniotis and Nikolaos Thomos
- Abstract要約: 本稿では,未知のビデオとビューポートの人気を前提としたプロアクティブキャッシング手法を提案する。
提案手法は,ビデオごとの最適な仮想ビューポートとして,どの動画をキャッシュするかを決定する。
提案されたソリューションは、エンドユーザに配信される360$o$ビデオの全体的な品質を最大化することを目的としている。
- 参考スコア(独自算出の注目度): 9.023334886433723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 360$^o$ video is an essential component of VR/AR/MR systems that provides
immersive experience to the users. However, 360$^o$ video is associated with
high bandwidth requirements. The required bandwidth can be reduced by
exploiting the fact that users are interested in viewing only a part of the
video scene and that users request viewports that overlap with each other.
Motivated by the findings of recent works where the benefits of caching video
tiles at edge servers instead of caching entire 360$^o$ videos were shown, in
this paper, we introduce the concept of virtual viewports that have the same
number of tiles with the original viewports. The tiles forming these viewports
are the most popular ones for each video and are determined by the users'
requests. Then, we propose a proactive caching scheme that assumes unknown
videos' and viewports' popularity. Our scheme determines which videos to cache
as well as which is the optimal virtual viewport per video. Virtual viewports
permit to lower the dimensionality of the cache optimization problem. To solve
the problem, we first formulate the content placement of 360$^o$ videos in edge
cache networks as a Markov Decision Process (MDP), and then we determine the
optimal caching placement using the Deep Q-Network (DQN) algorithm. The
proposed solution aims at maximizing the overall quality of the 360$^o$ videos
delivered to the end-users by caching the most popular 360$^o$ videos at base
quality along with a virtual viewport in high quality. We extensively evaluate
the performance of the proposed system and compare it with that of known
systems such as LFU, LRU, FIFO, over both synthetic and real 360$^o$ video
traces. The results reveal the large benefits coming from proactive caching of
virtual viewports instead of the original ones in terms of the overall quality
of the rendered viewports, the cache hit ratio, and the servicing cost.
- Abstract(参考訳): 360$^o$ videoは、没入型体験を提供するvr/ar/mrシステムの必須コンポーネントである。
しかし、360$^o$ビデオは高い帯域幅要件と関連している。
ビデオシーンの一部だけを見ることに関心があり、ユーザが相互に重複するビューポートを要求するという事実を活用することで、必要な帯域幅を削減できる。
本稿では,360$o$の動画をキャッシュする代わりに,エッジサーバに動画タイルをキャッシュするメリットを示す最近の研究成果に触発されて,オリジナルのビューポートと同一数のタイルを持つ仮想ビューポートの概念を紹介した。
これらのビューポートを形成するタイルは、各ビデオで最も人気のあるタイルであり、ユーザの要求によって決定される。
次に,未知のビデオやビューポートの人気を想定した積極的なキャッシング方式を提案する。
提案手法は,ビデオごとの最適な仮想ビューポートとして,どの動画をキャッシュするかを決定する。
仮想ビューポートにより、キャッシュ最適化問題の次元性が低下する。
そこで我々はまず,エッジキャッシュネットワークにおける360$^o$ビデオのコンテンツ配置をMarkov Decision Process (MDP) として定式化し,次にDeep Q-Network (DQN) アルゴリズムを用いて最適なキャッシュ配置を決定する。
提案手法は,高画質の仮想ビューポートとともに,最も人気のある360$^o$ビデオをベース品質でキャッシュすることで,エンドユーザに配信される360$^o$ビデオの全体的な品質を最大化する。
提案システムの性能を広範に評価し,LFU,LRU,FIFOなどの既知のシステムと比較した。
その結果、レンダリングされたビューポートの全体的な品質、キャッシュヒット率、サービスコストの観点から、オリジナルのビューポートではなく、仮想ビューポートのアクティブキャッシュによる大きなメリットが明らかになった。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - 360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries [24.345954562946385]
本稿では,視覚的ローカライゼーションのための地平線ポーズを持つ360$circ$画像からなる新しいベンチマークデータセットである360Locを紹介する。
360$circ$画像から低FoVクエリフレームを生成するための仮想カメラ手法を提案する。
一方向の視覚的ローカライゼーションは、対称性と繰り返し構造を持つ大規模シーンに挑戦する上で、より堅牢であることを示す。
論文 参考訳(メタデータ) (2023-11-29T06:42:12Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z) - Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos [24.4517195084202]
トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T02:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。