論文の概要: MADRL-Based Rate Adaptation for 360° Video Streaming with Multi-Viewpoint Prediction
- arxiv url: http://arxiv.org/abs/2405.07759v2
- Date: Fri, 17 May 2024 23:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 20:15:46.263717
- Title: MADRL-Based Rate Adaptation for 360° Video Streaming with Multi-Viewpoint Prediction
- Title(参考訳): マルチ視点予測による360度映像ストリーミングのためのMADRLに基づくレート適応
- Authors: Haopeng Wang, Zijian Long, Haiwei Dong, Abdulmotaleb El Saddik,
- Abstract要約: 360degビデオ再生の鍵となる課題は、ネットワーク帯域幅が制限された高品質なエクスペリエンス(QoE)を保証することである。
現在、ほとんどの研究は、単一のビューポート予測に基づいてタイルベースの適応型ストリーミング(ABR)に焦点を当てている。
本稿ではまず,複数の視点軌跡を歴史的軌跡として生成する多モード空間的注意変換器を提案する。
その後,360degビデオストリーミングのための多視点予測を用いたマルチエージェントディープ強化学習(MADRL)に基づくABRアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.8611070161950916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last few years, 360{\deg} video traffic on the network has grown significantly. A key challenge of 360{\deg} video playback is ensuring a high quality of experience (QoE) with limited network bandwidth. Currently, most studies focus on tile-based adaptive bitrate (ABR) streaming based on single viewport prediction to reduce bandwidth consumption. However, the performance of models for single-viewpoint prediction is severely limited by the inherent uncertainty in head movement, which can not cope with the sudden movement of users very well. This paper first presents a multimodal spatial-temporal attention transformer to generate multiple viewpoint trajectories with their probabilities given a historical trajectory. The proposed method models viewpoint prediction as a classification problem and uses attention mechanisms to capture the spatial and temporal characteristics of input video frames and viewpoint trajectories for multi-viewpoint prediction. After that, a multi-agent deep reinforcement learning (MADRL)-based ABR algorithm utilizing multi-viewpoint prediction for 360{\deg} video streaming is proposed for maximizing different QoE objectives under various network conditions. We formulate the ABR problem as a decentralized partially observable Markov decision process (Dec-POMDP) problem and present a MAPPO algorithm based on centralized training and decentralized execution (CTDE) framework to solve the problem. The experimental results show that our proposed method improves the defined QoE metric by up to 85.5% compared to existing ABR methods.
- Abstract(参考訳): ここ数年で、ネットワーク上の360度ビデオトラフィックは大幅に増加した。
360{\deg}ビデオ再生の重要な課題は、ネットワーク帯域幅が制限された高品質なエクスペリエンス(QoE)を保証することである。
現在、ほとんどの研究は、単一のビューポート予測に基づいてタイルベースの適応ビットレート(ABR)ストリーミングに焦点を当てている。
しかし, 単一視点予測モデルの性能は, ユーザの突然の動きに対処できない頭部運動の不確実性によって著しく制限されている。
本稿ではまず,複数の視点軌跡を歴史的軌跡として生成する多モード空間的注意変換器を提案する。
提案手法は、視点予測を分類問題としてモデル化し、多視点予測のための入力ビデオフレームと視点軌跡の空間的・時間的特性をキャプチャするための注意機構を用いる。
その後、様々なネットワーク条件下でのQoE目標の最大化のために、360{\deg}ビデオストリーミングのマルチ視点予測を用いたマルチエージェントディープ強化学習(MADRL)に基づくABRアルゴリズムを提案する。
本稿では,ABR問題を分散部分観測可能マルコフ決定プロセス(Dec-POMDP)問題として定式化し,集中学習と分散実行(CTDE)に基づくMAPPOアルゴリズムを提案する。
実験の結果,提案手法は既存のABR法と比較して,定義したQoE法を85.5%改善することがわかった。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP
Benchmark [23.872360763782037]
ASAPは、自律運転における視覚中心の知覚のオンラインパフォーマンスを評価する最初のベンチマークである。
12Hzの原画像の高フレームレートラベルを生成するためのアノテーション拡張パイプラインを提案する。
ASAPベンチマークでは、モデルランクが異なる制約の下で変化することを示す総合的な実験結果が示されている。
論文 参考訳(メタデータ) (2022-12-17T16:32:15Z) - Spherical Convolution empowered FoV Prediction in 360-degree Video
Multicast with Limited FoV Feedback [16.716422953229088]
視野(FoV)予測は360度ビデオマルチキャストにおいて重要である。
本稿では,球面畳み込みを用いたFoV予測法を提案する。
実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-29T08:32:19Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。