論文の概要: Deep Hybrid Model for Region of Interest Detection in Omnidirectional Videos
- arxiv url: http://arxiv.org/abs/2511.18856v2
- Date: Tue, 25 Nov 2025 05:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.399499
- Title: Deep Hybrid Model for Region of Interest Detection in Omnidirectional Videos
- Title(参考訳): 全方位ビデオにおける関心領域検出のためのディープハイブリッドモデル
- Authors: Sana Alamgeer, Mylene Farias, Marcelo Carvalho,
- Abstract要約: 360ドルのビデオストリーミングでは、関心の領域が重要な役割を担っている。
本研究では、関心のある地域を表すために、有給地域を参照する。
本発明の方法は、フレームを得るためのビデオを前処理し、関心領域を予測するためのハイブリッド・サリエンシ・モデルを開発し、最終的にハイブリッド・サリエンシ・モデルの出力予測を後処理して各フレームの出力領域を得る。
- 参考スコア(独自算出の注目度): 1.6822770693792826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The main goal of the project is to design a new model that predicts regions of interest in 360$^{\circ}$ videos. The region of interest (ROI) plays an important role in 360$^{\circ}$ video streaming. For example, ROIs are used to predict view-ports, intelligently cut the videos for live streaming, etc so that less bandwidth is used. Detecting view-ports in advance helps reduce the movement of the head while streaming and watching a video via the head-mounted device. Whereas, intelligent cuts of the videos help improve the efficiency of streaming the video to users and enhance the quality of their viewing experience. This report illustrates the secondary task to identify ROIs, in which, we design, train, and test a hybrid saliency model. In this work, we refer to saliency regions to represent the regions of interest. The method includes the processes as follows: preprocessing the video to obtain frames, developing a hybrid saliency model for predicting the region of interest, and finally post-processing the output predictions of the hybrid saliency model to obtain the output region of interest for each frame. Then, we compare the performance of the proposed method with the subjective annotations of the 360RAT dataset.
- Abstract(参考訳): このプロジェクトの主な目標は、360$^{\circ}$ビデオの関心領域を予測する新しいモデルを設計することである。
関心領域(ROI)は360$^{\circ}$ビデオストリーミングにおいて重要な役割を果たす。
例えば、ROIはビューポートを予測したり、ライブストリーミングのためにビデオをインテリジェントにカットしたりするために使われます。
前もってビューポートを検出することで、ヘッドマウントデバイス経由で動画をストリーミングしたり視聴したりしながら、頭部の動きを減らすことができる。
しかし、ビデオのインテリジェントなカットは、ビデオをユーザーにストリーミングする効率を改善し、視聴体験の質を高めるのに役立つ。
このレポートでは、ROIを特定するための二次的なタスクについて説明します。
本研究では、関心のある地域を表すために、有給地域を参照する。
本発明の方法は、フレームを得るためのビデオを前処理し、関心領域を予測するためのハイブリッド・サリエンシ・モデルを開発し、最終的にハイブリッド・サリエンシ・モデルの出力予測を後処理して各フレームの出力領域を得る。
次に,提案手法の性能を360RATデータセットの主観的アノテーションと比較した。
関連論文リスト
- Generate the browsing process for short-video recommendation [6.246989522091273]
本稿では,ユーザのショートビデオ視聴ジャーニーを動的にシミュレートし,ショートビデオレコメンデーションにおけるウォッチタイム予測を提案する。
本手法は,コラボレーティブ・インフォメーションを学習することで,短い動画の視聴に対するユーザの継続的な関心をシミュレートする。
産業規模および公共データセットの実験により,本手法が時計時間予測タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-04-02T20:54:52Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion [30.6593929365917]
ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。
既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。
本稿では,マルチモーダル大言語モデル(MLLM),グラウンドモジュール,拡散モデルを統合することで,そのプロセスを模倣するフレームワークであるCaRDiffを提案する。
論文 参考訳(メタデータ) (2024-08-21T21:40:30Z) - Viewport Prediction for Volumetric Video Streaming by Exploring Video Saliency and Trajectory Information [45.31198546289057]
本稿では,Saliency and Trajectory Viewport Prediction (STVP) という新しいアプローチを提案し,提案する。
ボリュームビデオストリーミングにおけるビューポート予測の精度の向上を目的としている。
特に,計算複雑性を低減するために,新しいサンプリング手法であるUniform Random Smpling (URS)を導入する。
論文 参考訳(メタデータ) (2023-11-28T03:45:29Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。