論文の概要: SalSum: Saliency-based Video Summarization using Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2011.10432v1
- Date: Fri, 20 Nov 2020 14:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:52:00.466186
- Title: SalSum: Saliency-based Video Summarization using Generative Adversarial
Networks
- Title(参考訳): SalSum:ジェネレーティブ・ディバイサル・ネットワークを用いたサリエンシに基づくビデオ要約
- Authors: George Pantazis, George Dimas and Dimitris K. Iakovidis
- Abstract要約: 本稿では,人間の眼球運動を訓練したGANモデルに基づく新しいVSアプローチを提案する。
提案手法は,ベンチマークデータセットVSUMMにおける最先端のVSアプローチと比較して評価する。
- 参考スコア(独自算出の注目度): 6.45481313278967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The huge amount of video data produced daily by camera-based systems, such as
surveilance, medical and telecommunication systems, emerges the need for
effective video summarization (VS) methods. These methods should be capable of
creating an overview of the video content. In this paper, we propose a novel VS
method based on a Generative Adversarial Network (GAN) model pre-trained with
human eye fixations. The main contribution of the proposed method is that it
can provide perceptually compatible video summaries by combining both perceived
color and spatiotemporal visual attention cues in a unsupervised scheme.
Several fusion approaches are considered for robustness under uncertainty, and
personalization. The proposed method is evaluated in comparison to
state-of-the-art VS approaches on the benchmark dataset VSUMM. The experimental
results conclude that SalSum outperforms the state-of-the-art approaches by
providing the highest f-measure score on the VSUMM benchmark.
- Abstract(参考訳): 監視,医療,通信システムなど,カメラベースのシステムによって毎日発生する大量の映像データが,効果的な映像要約(VS)手法の必要性を浮き彫りにしている。
これらの方法は、ビデオコンテンツの概要を作成することができるべきである。
本稿では,人間の目で事前に訓練したGANモデルに基づく新しいVS手法を提案する。
提案手法の主な貢献は、教師なし方式で知覚色と時空間視覚の両方を組み合わせ、知覚に相応しい映像要約を提供することである。
いくつかの融合アプローチは、不確実性の下での堅牢性とパーソナライゼーションのために考慮されている。
提案手法は,ベンチマークデータセットVSUMMの最先端VSアプローチと比較して評価する。
実験結果から,SalSumはVSUMMベンチマークにおいて最も高いF測定値を提供することにより,最先端のアプローチよりも優れることがわかった。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Efficient Video Summarization Framework using EEG and Eye-tracking
Signals [0.92246583941469]
本稿では,いくつかのキーフレームやビデオのスキムで映像全体のギストを与える,効率的な映像要約フレームワークを提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
提案手法を用いて,高い精度と高いリコール係数を維持しつつ,動画を96.5%要約する。
論文 参考訳(メタデータ) (2021-01-27T08:13:19Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。