論文の概要: An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos
- arxiv url: http://arxiv.org/abs/2312.02576v1
- Date: Tue, 5 Dec 2023 08:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:14:48.086327
- Title: An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos
- Title(参考訳): 360度映像の時空間要約統合システム
- Authors: Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris
- Abstract要約: 本稿では,360度ビデオの要約システムを提案する。
ビデオ制作は主にイベントとそのシナプスを簡潔な要約に検出する。
この分析は、360度ビデオの正当性検出のための最先端の手法に依存している。
- 参考スコア(独自算出の注目度): 6.8292720972215974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an integrated system for spatiotemporal
summarization of 360-degrees videos. The video summary production mainly
involves the detection of salient events and their synopsis into a concise
summary. The analysis relies on state-of-the-art methods for saliency detection
in 360-degrees video (ATSal and SST-Sal) and video summarization (CA-SUM). It
also contains a mechanism that classifies a 360-degrees video based on the use
of static or moving camera during recording and decides which saliency
detection method will be used, as well as a 2D video production component that
is responsible to create a conventional 2D video containing the salient events
in the 360-degrees video. Quantitative evaluations using two datasets for
360-degrees video saliency detection (VR-EyeTracking, Sports-360) show the
accuracy and positive impact of the developed decision mechanism, and justify
our choice to use two different methods for detecting the salient events. A
qualitative analysis using content from these datasets, gives further insights
about the functionality of the decision mechanism, shows the pros and cons of
each used saliency detection method and demonstrates the advanced performance
of the trained summarization method against a more conventional approach.
- Abstract(参考訳): 本研究では,360度ビデオの時空間要約のための統合システムを提案する。
ビデオ要約生成は主に、顕著な出来事とそのシナプスを簡潔な要約に検出することを含む。
この分析は、360度ビデオ(ATSalとSST-Sal)およびビデオ要約(CA-SUM)における精度検出の最先端手法に依存している。
また、記録中の静止または移動カメラの使用に基づいて360度ビデオを分類し、どのサリエンシー検出方法を使用するかを決定する機構と、360度ビデオ内のサリエントイベントを含む従来の2dビデオを作成するための2dビデオ生成コンポーネントが含まれている。
360度ビデオサリエンシ検出(VR-EyeTracking, Sports-360)のための2つのデータセットを用いた定量的評価は,開発した決定機構の正確さと肯定的な影響を示し,その検出に2つの異なる方法を用いることを正当化する。
これらのデータセットからのコンテンツを用いた質的分析は、決定機構の機能に関するさらなる洞察を与え、使用済みの塩分濃度検出法の長所と短所を示し、訓練済みの要約法の従来の手法に対する高度な性能を示す。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Evaluating Point Cloud from Moving Camera Videos: A No-Reference Metric [58.309735075960745]
本稿では,ビデオ品質評価(VQA)手法を用いて,ポイントクラウド品質評価(PCQA)タスクの処理方法について検討する。
捉えたビデオは、いくつかの円形の経路を通して、点雲の周りでカメラを回転させて生成する。
トレーニング可能な2D-CNNモデルと事前学習された3D-CNNモデルを用いて、選択したキーフレームとビデオクリップから空間的・時間的品質認識特徴を抽出する。
論文 参考訳(メタデータ) (2022-08-30T08:59:41Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video 3D Sampling for Self-supervised Representation Learning [13.135859819622855]
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
論文 参考訳(メタデータ) (2021-07-08T03:22:06Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - Efficient Video Summarization Framework using EEG and Eye-tracking
Signals [0.92246583941469]
本稿では,いくつかのキーフレームやビデオのスキムで映像全体のギストを与える,効率的な映像要約フレームワークを提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
提案手法を用いて,高い精度と高いリコール係数を維持しつつ,動画を96.5%要約する。
論文 参考訳(メタデータ) (2021-01-27T08:13:19Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$
Videos [24.4517195084202]
トップビュー360$circ$ビデオにおけるアクション認識の問題に対処する。
提案フレームワークは、まず一方向ビデオからパノラマビデオに変換し、その後、地域ベースの3D CNNを用いて時空間の特徴を抽出して行動認識を行う。
本稿では,ビデオレベルのアクションラベルのみを教師として使用して,映像中の複数のアクションを認識・ローカライズするようにモデルを訓練する,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T02:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。