論文の概要: Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network
- arxiv url: http://arxiv.org/abs/2105.11131v1
- Date: Mon, 24 May 2021 07:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 14:59:04.593085
- Title: Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network
- Title(参考訳): Convolutional Attentive Adversarial Networkを用いた教師なしビデオ要約
- Authors: Guoqiang Liang, Yanbing Lv, Shucheng Li, Shizhou Zhang, Yanning Zhang
- Abstract要約: 我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
- 参考スコア(独自算出の注目度): 32.90753137435032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosive growth of video data, video summarization, which attempts
to seek the minimum subset of frames while still conveying the main story, has
become one of the hottest topics. Nowadays, substantial achievements have been
made by supervised learning techniques, especially after the emergence of deep
learning. However, it is extremely expensive and difficult to collect human
annotation for large-scale video datasets. To address this problem, we propose
a convolutional attentive adversarial network (CAAN), whose key idea is to
build a deep summarizer in an unsupervised way. Upon the generative adversarial
network, our overall framework consists of a generator and a discriminator. The
former predicts importance scores for all frames of a video while the latter
tries to distinguish the score-weighted frame features from original frame
features. Specifically, the generator employs a fully convolutional sequence
network to extract global representation of a video, and an attention-based
network to output normalized importance scores. To learn the parameters, our
objective function is composed of three loss functions, which can guide the
frame-level importance score prediction collaboratively. To validate this
proposed method, we have conducted extensive experiments on two public
benchmarks SumMe and TVSum. The results show the superiority of our proposed
method against other state-of-the-art unsupervised approaches. Our method even
outperforms some published supervised approaches.
- Abstract(参考訳): ビデオデータの爆発的増加に伴い、ビデオ要約は、メインストーリーを伝えながらフレームの最小サブセットを探そうとしており、最もホットなトピックの1つとなっている。
今日では、特に深層学習の出現以降、教師付き学習技術によって大きな成果が得られている。
しかし、大規模なビデオデータセットに対する人間のアノテーションの収集は非常に高価で困難である。
この問題に対処するため,我々は,教師なしの方法で深層要約器を構築することを主目的とする畳み込み型注意逆ネットワーク (caan) を提案する。
生成的対向ネットワークでは,本フレームワークはジェネレータと識別器から構成される。
前者はビデオのすべてのフレームで重要なスコアを予測し、後者はスコアの重み付けされたフレーム特徴と元のフレーム特徴を区別しようとする。
具体的には、ビデオのグローバル表現を抽出するために完全畳み込みシーケンスネットワークと、正規化重要度スコアを出力する注意ベースネットワークを用いる。
パラメータを学習するために,目的関数は3つの損失関数から成り,フレームレベルの重要度スコア予測を協調的に導くことができる。
提案手法を検証するために, SumMe と TVSum の2つの公開ベンチマーク実験を行った。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
我々の手法は、公開された教師付きアプローチよりも優れています。
関連論文リスト
- Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Efficient Video Summarization Framework using EEG and Eye-tracking
Signals [0.92246583941469]
本稿では,いくつかのキーフレームやビデオのスキムで映像全体のギストを与える,効率的な映像要約フレームワークを提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
提案手法を用いて,高い精度と高いリコール係数を維持しつつ,動画を96.5%要約する。
論文 参考訳(メタデータ) (2021-01-27T08:13:19Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。