論文の概要: Video Summarization: Study of various techniques
- arxiv url: http://arxiv.org/abs/2101.08434v1
- Date: Thu, 21 Jan 2021 04:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:56:43.819241
- Title: Video Summarization: Study of various techniques
- Title(参考訳): ビデオ要約:様々な技法の研究
- Authors: Ravi Raj, Varad Bhatnagar, Aman Kumar Singh, Sneha Mane and Nilima
Walde
- Abstract要約: いずれのアプローチでも、長いビデオは短いビデオに変換され、オリジナルのビデオにあるすべての重要なイベントをキャプチャすることを目的としている。
「重要イベント」の定義は、スポーツ映像やドキュメンタリーなど、重要と分類される異なるイベントがある場合など、文脈によって異なる場合がある。
- 参考スコア(独自算出の注目度): 0.4083182125683813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A comparative study of various techniques which can be used for summarization
of Videos i.e. Video to Video conversion is presented along with respective
architecture, results, strengths and shortcomings. In all approaches, a lengthy
video is converted into a shorter video which aims to capture all important
events that are present in the original video. The definition of 'important
event' may vary according to the context, such as a sports video and a
documentary may have different events which are classified as important.
- Abstract(参考訳): 映像の要約に使用できる様々な技術の比較研究
ビデオからビデオへの変換は、それぞれのアーキテクチャ、結果、強み、欠点とともに提供される。
いずれのアプローチでも、長いビデオは短いビデオに変換され、オリジナルのビデオにあるすべての重要なイベントをキャプチャすることを目的としている。
「重要イベント」の定義は、スポーツ映像やドキュメンタリーなど、重要と分類される異なるイベントがある場合など、文脈によって異なる場合がある。
関連論文リスト
- A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Optical Flow for Video Super-Resolution: A Survey [73.32742339612574]
ビデオ超解像はコンピュータビジョンにおける最も活発な研究トピックの1つである。
本論では,本論を初めて包括的に概観する。
深層学習に基づくビデオ超解像法について詳細な研究を行う。
論文 参考訳(メタデータ) (2022-03-20T06:04:56Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - An Annotated Video Dataset for Computing Video Memorability [3.660907225956466]
1,275のユーザは、ビデオの長期記憶と短期記憶の両方を示すために、各ビデオに手動で注釈を付けている。
認識タスクは、過去数分間のビデオで、短期記憶のために、過去24時間から72時間で、長期記憶のために行われた。
このデータセットは、2020年のMediaEvalベンチマークの一部として、Video Memorabilityタスクで使用された。
論文 参考訳(メタデータ) (2021-12-04T10:42:38Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。