論文の概要: Reconstructive Sequence-Graph Network for Video Summarization
- arxiv url: http://arxiv.org/abs/2105.04066v1
- Date: Mon, 10 May 2021 01:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:21:00.937943
- Title: Reconstructive Sequence-Graph Network for Video Summarization
- Title(参考訳): ビデオ要約のための再構成シーケンスグラフネットワーク
- Authors: Bin Zhao, Haopeng Li, Xiaoqiang Lu, Xuelong Li
- Abstract要約: キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
- 参考スコア(独自算出の注目度): 107.0328985865372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting the inner-shot and inter-shot dependencies is essential for
key-shot based video summarization. Current approaches mainly devote to
modeling the video as a frame sequence by recurrent neural networks. However,
one potential limitation of the sequence models is that they focus on capturing
local neighborhood dependencies while the high-order dependencies in long
distance are not fully exploited. In general, the frames in each shot record a
certain activity and vary smoothly over time, but the multi-hop relationships
occur frequently among shots. In this case, both the local and global
dependencies are important for understanding the video content. Motivated by
this point, we propose a Reconstructive Sequence-Graph Network (RSGN) to encode
the frames and shots as sequence and graph hierarchically, where the
frame-level dependencies are encoded by Long Short-Term Memory (LSTM), and the
shot-level dependencies are captured by the Graph Convolutional Network (GCN).
Then, the videos are summarized by exploiting both the local and global
dependencies among shots. Besides, a reconstructor is developed to reward the
summary generator, so that the generator can be optimized in an unsupervised
manner, which can avert the lack of annotated data in video summarization.
Furthermore, under the guidance of reconstruction loss, the predicted summary
can better preserve the main video content and shot-level dependencies.
Practically, the experimental results on three popular datasets i.e., SumMe,
TVsum and VTW) have demonstrated the superiority of our proposed approach to
the summarization task.
- Abstract(参考訳): キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
現在のアプローチは主に、リカレントニューラルネットワークによるフレームシーケンスとしてビデオのモデリングに費やされている。
しかし、シーケンスモデルの潜在的な制限の1つは、長距離の高次依存関係が完全に悪用されていない間、ローカルな近所の依存関係を捉えることに焦点を当てることである。
一般的に、各ショットのフレームは特定のアクティビティを記録し、時間とともにスムーズに変化するが、複数ホップの関係はショット間で頻繁に発生する。
この場合、ローカルおよびグローバルの依存関係はビデオコンテンツを理解する上で重要である。
そこで我々は,フレームとショットをシーケンスとグラフの階層的にエンコードするReconstructive Sequence-Graph Network (RSGN)を提案し,フレームレベルの依存関係をLong Short-Term Memory (LSTM) でエンコードし,ショットレベルの依存関係を Graph Convolutional Network (GCN) でキャプチャする。
次に、ビデオは、ショット間のローカルとグローバルの両方の依存関係を利用して要約される。
また、要約生成器に報酬を与える再構成器を開発し、教師なしの最適化が可能で、ビデオ要約における注釈付きデータの欠如を回避することができる。
さらに,コンストラクションロスの指導のもと,予測された要約は,主映像コンテンツとショットレベルの依存関係をよりよく保存することができる。
実際、一般的な3つのデータセット(summe、tvsum、vtw)の実験結果は、提案手法の要約タスクに対する優越性を示している。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data [29.841574293529796]
ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-01-17T10:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。