論文の概要: ERA: Entity Relationship Aware Video Summarization with Wasserstein GAN
- arxiv url: http://arxiv.org/abs/2109.02625v1
- Date: Mon, 6 Sep 2021 17:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:32:42.438676
- Title: ERA: Entity Relationship Aware Video Summarization with Wasserstein GAN
- Title(参考訳): ERA: Wasserstein GAN によるビデオ要約を意識したエンティティ関係
- Authors: Guande Wu, Jianzhe Lin, Claudio T. Silva
- Abstract要約: ビデオ要約は、オリジナルビデオから分岐するがうまく表現される簡潔で短い要約を生成することによって、大規模なビデオブラウジングを単純化することを目的としている。
ビデオ要約の最近の進歩は教師なしの手法に集中しており、中でもGANに基づく手法が最も一般的である。
本稿では、上記の問題に対処する新しいエンティティ関係対応ビデオ要約手法(ERA)を提案する。
- 参考スコア(独自算出の注目度): 2.5234156040689233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims to simplify large scale video browsing by generating
concise, short summaries that diver from but well represent the original video.
Due to the scarcity of video annotations, recent progress for video
summarization concentrates on unsupervised methods, among which the GAN based
methods are most prevalent. This type of methods includes a summarizer and a
discriminator. The summarized video from the summarizer will be assumed as the
final output, only if the video reconstructed from this summary cannot be
discriminated from the original one by the discriminator. The primary problems
of this GAN based methods are two folds. First, the summarized video in this
way is a subset of original video with low redundancy and contains high
priority events/entities. This summarization criterion is not enough. Second,
the training of the GAN framework is not stable. This paper proposes a novel
Entity relationship Aware video summarization method (ERA) to address the above
problems. To be more specific, we introduce an Adversarial Spatio Temporal
network to construct the relationship among entities, which we think should
also be given high priority in the summarization. The GAN training problem is
solved by introducing the Wasserstein GAN and two newly proposed video
patch/score sum losses. In addition, the score sum loss can also relieve the
model sensitivity to the varying video lengths, which is an inherent problem
for most current video analysis tasks. Our method substantially lifts the
performance on the target benchmark datasets and exceeds the current
leaderboard Rank 1 state of the art CSNet (2.1% F1 score increase on TVSum and
3.1% F1 score increase on SumMe). We hope our straightforward yet effective
approach will shed some light on the future research of unsupervised video
summarization.
- Abstract(参考訳): ビデオ要約は、オリジナルビデオから分岐するがうまく表現される簡潔で短い要約を生成することによって、大規模なビデオブラウジングを単純化することを目的としている。
ビデオアノテーションの不足により、ビデオ要約の最近の進歩は教師なし手法に集中しており、中でもGANに基づく手法が最も一般的である。
この種の方法は要約器と判別器を含む。
要約器からの要約映像を最終出力とみなすが、この要約から再構成された映像を判別器で原ビデオと判別できない場合のみである。
この GAN ベースの手法の主な問題は 2 つの折り畳みである。
まず、要約されたビデオは、冗長性の低いオリジナルビデオのサブセットであり、優先度の高いイベント/エンティティを含んでいる。
この要約基準は不十分である。
第二に、GANフレームワークのトレーニングは安定していない。
本稿では、上記の問題に対処する新しいエンティティ関係対応ビデオ要約手法(ERA)を提案する。
より具体的には、エンティティ間の関係を構築するためのAdversarial Spatio Temporal Networkを導入する。
GANトレーニング問題は、Wasserstein GANと、新たに提案された2つのビデオパッチ/スコア和損失を導入することで解決される。
さらに、スコアの総和損失は、現在のほとんどのビデオ分析タスクに固有の問題である様々なビデオ長に対するモデルの感度を和らげることもできる。
本手法は,目標とするベンチマークデータセットの性能を大幅に向上させ,CSNetの現在のリーダボードランク1の状態を上回り,TVSumでは2.1%,SumMeでは3.1%)。
直感的で効果的なアプローチが、教師なしのビデオ要約の将来の研究に光を当てることを願っています。
関連論文リスト
- Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-26T01:42:55Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。