論文の概要: Exploring global diverse attention via pairwise temporal relation for
video summarization
- arxiv url: http://arxiv.org/abs/2009.10942v1
- Date: Wed, 23 Sep 2020 06:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:39:37.502758
- Title: Exploring global diverse attention via pairwise temporal relation for
video summarization
- Title(参考訳): ビデオ要約のためのペアワイズ時間関係によるグローバル多様注意の探索
- Authors: Ping Li, Qinghao Ye, Luming Zhang, Li Yuan, Xianghua Xu, Ling Shao
- Abstract要約: 我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
- 参考スコア(独自算出の注目度): 84.28263235895798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization is an effective way to facilitate video searching and
browsing. Most of existing systems employ encoder-decoder based recurrent
neural networks, which fail to explicitly diversify the system-generated
summary frames while requiring intensive computations. In this paper, we
propose an efficient convolutional neural network architecture for video
SUMmarization via Global Diverse Attention called SUM-GDA, which adapts
attention mechanism in a global perspective to consider pairwise temporal
relations of video frames. Particularly, the GDA module has two advantages: 1)
it models the relations within paired frames as well as the relations among all
pairs, thus capturing the global attention across all frames of one video; 2)
it reflects the importance of each frame to the whole video, leading to diverse
attention on these frames. Thus, SUM-GDA is beneficial for generating diverse
frames to form satisfactory video summary. Extensive experiments on three data
sets, i.e., SumMe, TVSum, and VTW, have demonstrated that SUM-GDA and its
extension outperform other competing state-of-the-art methods with remarkable
improvements. In addition, the proposed models can be run in parallel with
significantly less computational costs, which helps the deployment in highly
demanding applications.
- Abstract(参考訳): ビデオ要約は、ビデオ検索とブラウジングを容易にする効果的な方法である。
既存のシステムの多くはエンコーダデコーダベースのリカレントニューラルネットワークを採用しており、集中的な計算を必要としながら、システム生成の要約フレームを明示的に多様化することができない。
本稿では,映像フレームの対側時間関係を考えるために,グローバル視点において注意機構を適応させるsum-gdaと呼ばれるグローバル多様注意による映像要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
特にGDAモジュールには2つの利点がある。
1) 対のフレーム間の関係や、すべてのペア間の関係をモデル化し、1つのビデオの全フレームにわたるグローバルな注意を引く。
2)ビデオ全体に対する各フレームの重要性を反映し,これらのフレームに対する多様な注意を喚起する。
したがって、SUM-GDAは、様々なフレームを生成し、良好な映像要約を形成するのに有用である。
SumMe、TVSum、VTWの3つのデータセットに対する大規模な実験は、SUM-GDAとその拡張が他の競合する最先端の手法よりも優れており、顕著に改善されていることを示した。
さらに、提案したモデルは計算コストを大幅に削減した並列実行が可能で、要求の高いアプリケーションへのデプロイを支援する。
関連論文リスト
- Bridging the Gap: A Unified Video Comprehension Framework for Moment
Retrieval and Highlight Detection [45.82453232979516]
ビデオモーメント検索 (MR) とハイライト検出 (HD) は, ビデオ解析の需要が高まっているため, 注目されている。
最近のアプローチでは、MRとHDをビデオグラウンド問題として扱い、トランスフォーマーベースのアーキテクチャでそれらに対処している。
本稿では,そのギャップを埋め,MRとHDを効果的に解決するための統一ビデオ理解フレームワーク(UVCOM)を提案する。
論文 参考訳(メタデータ) (2023-11-28T03:55:23Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Exploring Global Diversity and Local Context for Video Summarization [4.452227592307381]
ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
そこで我々は,2乗ユークリッド距離を用いてアフィニティを求める。
論文 参考訳(メタデータ) (2022-01-27T06:56:01Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。