論文の概要: An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos
- arxiv url: http://arxiv.org/abs/2312.02576v1
- Date: Tue, 5 Dec 2023 08:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:14:48.086327
- Title: An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos
- Title(参考訳): 360度映像の時空間要約統合システム
- Authors: Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris
- Abstract要約: 本稿では,360度ビデオの要約システムを提案する。
ビデオ制作は主にイベントとそのシナプスを簡潔な要約に検出する。
この分析は、360度ビデオの正当性検出のための最先端の手法に依存している。
- 参考スコア(独自算出の注目度): 6.8292720972215974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an integrated system for spatiotemporal
summarization of 360-degrees videos. The video summary production mainly
involves the detection of salient events and their synopsis into a concise
summary. The analysis relies on state-of-the-art methods for saliency detection
in 360-degrees video (ATSal and SST-Sal) and video summarization (CA-SUM). It
also contains a mechanism that classifies a 360-degrees video based on the use
of static or moving camera during recording and decides which saliency
detection method will be used, as well as a 2D video production component that
is responsible to create a conventional 2D video containing the salient events
in the 360-degrees video. Quantitative evaluations using two datasets for
360-degrees video saliency detection (VR-EyeTracking, Sports-360) show the
accuracy and positive impact of the developed decision mechanism, and justify
our choice to use two different methods for detecting the salient events. A
qualitative analysis using content from these datasets, gives further insights
about the functionality of the decision mechanism, shows the pros and cons of
each used saliency detection method and demonstrates the advanced performance
of the trained summarization method against a more conventional approach.
- Abstract(参考訳): 本研究では,360度ビデオの時空間要約のための統合システムを提案する。
ビデオ要約生成は主に、顕著な出来事とそのシナプスを簡潔な要約に検出することを含む。
この分析は、360度ビデオ(ATSalとSST-Sal)およびビデオ要約(CA-SUM)における精度検出の最先端手法に依存している。
また、記録中の静止または移動カメラの使用に基づいて360度ビデオを分類し、どのサリエンシー検出方法を使用するかを決定する機構と、360度ビデオ内のサリエントイベントを含む従来の2dビデオを作成するための2dビデオ生成コンポーネントが含まれている。
360度ビデオサリエンシ検出(VR-EyeTracking, Sports-360)のための2つのデータセットを用いた定量的評価は,開発した決定機構の正確さと肯定的な影響を示し,その検出に2つの異なる方法を用いることを正当化する。
これらのデータセットからのコンテンツを用いた質的分析は、決定機構の機能に関するさらなる洞察を与え、使用済みの塩分濃度検出法の長所と短所を示し、訓練済みの要約法の従来の手法に対する高度な性能を示す。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods [6.076406622352117]
本稿では,360度映像コンテンツを2次元映像要約に変換する,360度映像要約のための新しいデータセットを提案する。
このデータセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
論文 参考訳(メタデータ) (2024-06-05T06:43:48Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Evaluating Point Cloud from Moving Camera Videos: A No-Reference Metric [58.309735075960745]
本稿では,ビデオ品質評価(VQA)手法を用いて,ポイントクラウド品質評価(PCQA)タスクの処理方法について検討する。
捉えたビデオは、いくつかの円形の経路を通して、点雲の周りでカメラを回転させて生成する。
トレーニング可能な2D-CNNモデルと事前学習された3D-CNNモデルを用いて、選択したキーフレームとビデオクリップから空間的・時間的品質認識特徴を抽出する。
論文 参考訳(メタデータ) (2022-08-30T08:59:41Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos [24.4517195084202]
トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T02:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。