論文の概要: A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods
- arxiv url: http://arxiv.org/abs/2406.02991v1
- Date: Wed, 5 Jun 2024 06:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:39:21.353796
- Title: A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods
- Title(参考訳): 360度映像要約法のトレーニングと評価のための人間アノテーション付きビデオデータセット
- Authors: Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris,
- Abstract要約: 本稿では,360度映像コンテンツを2次元映像要約に変換する,360度映像要約のための新しいデータセットを提案する。
このデータセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
- 参考スコア(独自算出の注目度): 6.076406622352117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce a new dataset for 360-degree video summarization: the transformation of 360-degree video content to concise 2D-video summaries that can be consumed via traditional devices, such as TV sets and smartphones. The dataset includes ground-truth human-generated summaries, that can be used for training and objectively evaluating 360-degree video summarization methods. Using this dataset, we train and assess two state-of-the-art summarization methods that were originally proposed for 2D-video summarization, to serve as a baseline for future comparisons with summarization methods that are specifically tailored to 360-degree video. Finally, we present an interactive tool that was developed to facilitate the data annotation process and can assist other annotation activities that rely on video fragment selection.
- Abstract(参考訳): 本稿では,テレビやスマートフォンなどの従来のデバイスで使用可能な,360度映像コンテンツから2D映像要約への変換という,360度映像要約のための新しいデータセットを提案する。
データセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
このデータセットを用いて、2次元ビデオ要約のために提案された2つの最先端要約手法を訓練・評価し、360度ビデオに特化された要約法と将来の比較のためのベースラインとして機能する。
最後に,データアノテーションプロセスを容易にするために開発され,ビデオフラグメント選択に依存する他のアノテーション活動を支援するインタラクティブツールを提案する。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - An Integrated System for Spatio-Temporal Summarization of 360-degrees
Videos [6.8292720972215974]
本稿では,360度ビデオの要約システムを提案する。
ビデオ制作は主にイベントとそのシナプスを簡潔な要約に検出する。
この分析は、360度ビデオの正当性検出のための最先端の手法に依存している。
論文 参考訳(メタデータ) (2023-12-05T08:48:31Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z) - Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines [0.0]
本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。
提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。
我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
論文 参考訳(メタデータ) (2020-02-19T17:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。