論文の概要: Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization
- arxiv url: http://arxiv.org/abs/2307.08145v1
- Date: Sun, 16 Jul 2023 19:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:23:15.267950
- Title: Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization
- Title(参考訳): 非教師なしビデオ要約のための自己アテンションに基づく生成型逆ネットワーク
- Authors: Maria Nektaria Minaidi, Charilaos Papaioannou, Alexandros Potamianos
- Abstract要約: 我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
- 参考スコア(独自算出の注目度): 78.2700757742992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of producing a comprehensive video
summary following an unsupervised approach that relies on adversarial learning.
We build on a popular method where a Generative Adversarial Network (GAN) is
trained to create representative summaries, indistinguishable from the
originals. The introduction of the attention mechanism into the architecture
for the selection, encoding and decoding of video frames, shows the efficacy of
self-attention and transformer in modeling temporal relationships for video
summarization. We propose the SUM-GAN-AED model that uses a self-attention
mechanism for frame selection, combined with LSTMs for encoding and decoding.
We evaluate the performance of the SUM-GAN-AED model on the SumMe, TVSum and
COGNIMUSE datasets. Experimental results indicate that using a self-attention
mechanism as the frame selection mechanism outperforms the state-of-the-art on
SumMe and leads to comparable to state-of-the-art performance on TVSum and
COGNIMUSE.
- Abstract(参考訳): 本稿では,敵対的学習に依拠した教師なしアプローチによる総合的映像要約作成の問題について検討する。
我々は,GAN(Generative Adversarial Network)をトレーニングして,原文と区別できない要約を生成する,一般的な手法に基づいて構築する。
ビデオフレームの選択・符号化・デコードのためのアテンション機構の導入は,ビデオ要約における時間関係のモデル化におけるセルフアテンションとトランスフォーマーの効果を示している。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
我々は,SumMe,TVSum,COGNIMUSEデータセットを用いたSUM-GAN-AEDモデルの性能評価を行った。
実験の結果,フレーム選択機構としての自己アテンション機構はsummeの最先端性能を上回り,tvsumやcognimuseの最先端性能に匹敵することがわかった。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Exploring Global Diversity and Local Context for Video Summarization [4.452227592307381]
ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
そこで我々は,2乗ユークリッド距離を用いてアフィニティを求める。
論文 参考訳(メタデータ) (2022-01-27T06:56:01Z) - SalSum: Saliency-based Video Summarization using Generative Adversarial
Networks [6.45481313278967]
本稿では,人間の眼球運動を訓練したGANモデルに基づく新しいVSアプローチを提案する。
提案手法は,ベンチマークデータセットVSUMMにおける最先端のVSアプローチと比較して評価する。
論文 参考訳(メタデータ) (2020-11-20T14:53:08Z) - Exploring global diverse attention via pairwise temporal relation for
video summarization [84.28263235895798]
我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
論文 参考訳(メタデータ) (2020-09-23T06:29:09Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。