論文の概要: OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos
- arxiv url: http://arxiv.org/abs/2508.14237v1
- Date: Tue, 19 Aug 2025 19:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.261992
- Title: OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos
- Title(参考訳): OmniSense:360度ビデオのためのエッジ支援オンライン分析
- Authors: Miao Zhang, Yifei Zhu, Linfeng Shen, Fangxin Wang, Jiangchuan Liu,
- Abstract要約: 我々は,オンライン没入型ビデオ分析のための新しいエッジ支援フレームワークであるOmniSenseを紹介する。
OmniSenseは低レイテンシと高精度の両方を実現し、重要な計算処理とネットワークリソースの課題に対処する。
我々は、OmniSenseのプロトタイプをコモディティデバイスで実装し、様々な現実世界で収集された360円の動画で評価する。
- 参考スコア(独自算出の注目度): 33.16225634336872
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the reduced hardware costs of omnidirectional cameras and the proliferation of various extended reality applications, more and more $360^\circ$ videos are being captured. To fully unleash their potential, advanced video analytics is expected to extract actionable insights and situational knowledge without blind spots from the videos. In this paper, we present OmniSense, a novel edge-assisted framework for online immersive video analytics. OmniSense achieves both low latency and high accuracy, combating the significant computation and network resource challenges of analyzing $360^\circ$ videos. Motivated by our measurement insights into $360^\circ$ videos, OmniSense introduces a lightweight spherical region of interest (SRoI) prediction algorithm to prune redundant information in $360^\circ$ frames. Incorporating the video content and network dynamics, it then smartly scales vision models to analyze the predicted SRoIs with optimized resource utilization. We implement a prototype of OmniSense with commodity devices and evaluate it on diverse real-world collected $360^\circ$ videos. Extensive evaluation results show that compared to resource-agnostic baselines, it improves the accuracy by $19.8\%$ -- $114.6\%$ with similar end-to-end latencies. Meanwhile, it hits $2.0\times$ -- $2.4\times$ speedups while keeping the accuracy on par with the highest accuracy of baselines.
- Abstract(参考訳): 全方位カメラのハードウェアコストの削減と、さまざまな拡張現実アプリケーションの普及により、より多くの360^\circ$ビデオが撮影されている。
彼らの可能性を完全に解き放つために、高度なビデオ分析は、ビデオの盲点をなくすことなく、行動可能な洞察と状況的知識を抽出することが期待されている。
本稿では,オンライン没入型ビデオ分析のための新しいエッジ支援フレームワークであるOmniSenseを紹介する。
OmniSenseは低レイテンシと高精度の両方を実現し,360^\circ$ビデオの解析において重要な計算処理とネットワークリソースの課題に対処する。
OmniSenseは360^\circ$ビデオの計測結果に触発され、360^\circ$フレームで冗長な情報を抽出するための軽量な球面領域予測アルゴリズム(SRoI)を導入した。
ビデオコンテンツとネットワークのダイナミクスを組み込んで、視覚モデルをスマートにスケールし、最適化されたリソース利用で予測されたSRoIを分析する。
我々は、OmniSenseのプロトタイプをコモディティデバイスで実装し、様々な現実世界で収集された360^\circ$ビデオで評価する。
大規模な評価結果からは、リソースに依存しないベースラインに比べて、19.8 %$ --14.6 %$ の精度が向上し、同様にエンドツーエンドのレイテンシが向上することが示された。
一方、2.0\times$ -- $2.4\times$ スピードアップを達成し、ベースラインの最高精度に匹敵する精度を維持している。
関連論文リスト
- Imagine360: Immersive 360 Video Generation from Perspective Anchor [79.97844408255897]
Imagine360は、360円から360ドル程度のビデオ生成フレームワークだ。
360ドル(約3万3000円)の限られたビデオデータから、細粒の球面と動きのパターンを学習する。
最先端の360ドル(約3万3000円)の動画生成方法では、グラフィック品質とモーションコヒーレンスに優れています。
論文 参考訳(メタデータ) (2024-12-04T18:50:08Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics [18.042752812489276]
視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。
その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
論文 参考訳(メタデータ) (2024-04-14T13:14:13Z) - Optical Flow Estimation in 360$^\circ$ Videos: Dataset, Model and
Application [9.99133340779672]
視覚的にも現実的な最初の360$$$of-viewビデオベンチマークデータセット、すなわちFLOW360を提案する。
本稿では,SLOF(Omnidirectional Flow)推定のための新しいSiamese表現学習フレームワークを提案する。
この学習手法は,自我中心のアクティビティ認識タスクにシアム学習スキームと全方位光フロー推定を拡張することによって,より効率的であることがさらに証明された。
論文 参考訳(メタデータ) (2023-01-27T17:50:09Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [53.94620993606658]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z) - Viewport-Aware Deep Reinforcement Learning Approach for 360$^o$ Video
Caching [9.023334886433723]
本稿では,未知のビデオとビューポートの人気を前提としたプロアクティブキャッシング手法を提案する。
提案手法は,ビデオごとの最適な仮想ビューポートとして,どの動画をキャッシュするかを決定する。
提案されたソリューションは、エンドユーザに配信される360$o$ビデオの全体的な品質を最大化することを目的としている。
論文 参考訳(メタデータ) (2020-03-18T21:05:10Z) - Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos [24.4517195084202]
トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T02:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。