論文の概要: Exploring Global Diversity and Local Context for Video Summarization
- arxiv url: http://arxiv.org/abs/2201.11345v1
- Date: Thu, 27 Jan 2022 06:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 23:03:01.723459
- Title: Exploring Global Diversity and Local Context for Video Summarization
- Title(参考訳): ビデオ要約のためのグローバル多様性とローカルコンテキストの検討
- Authors: Yingchao Pan, Ouhan Huang, Qinghao Ye, Zhongjin Li, Wenjiang Wang,
Guodun Li, Yuxing Chen
- Abstract要約: ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
そこで我々は,2乗ユークリッド距離を用いてアフィニティを求める。
- 参考スコア(独自算出の注目度): 4.452227592307381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization aims to automatically generate a diverse and concise
summary which is useful in large-scale video processing. Most of methods tend
to adopt self attention mechanism across video frames, which fails to model the
diversity of video frames. To alleviate this problem, we revisit the pairwise
similarity measurement in self attention mechanism and find that the existing
inner-product affinity leads to discriminative features rather than diversified
features. In light of this phenomenon, we propose global diverse attention by
using the squared Euclidean distance instead to compute the affinities.
Moreover, we model the local contextual information by proposing local
contextual attention to remove the redundancy in the video. By combining these
two attention mechanism, a video \textbf{SUM}marization model with Diversified
Contextual Attention scheme is developed and named as SUM-DCA. Extensive
experiments are conducted on benchmark data sets to verify the effectiveness
and the superiority of SUM-DCA in terms of F-score and rank-based evaluation
without any bells and whistles.
- Abstract(参考訳): ビデオ要約は,大規模ビデオ処理に有用な多種多様な簡潔な要約を自動的に生成することを目的としている。
ほとんどの手法では、ビデオフレーム間の自己注意機構を採用する傾向があり、ビデオフレームの多様性をモデル化できない。
この問題を緩和するために, 自己注意機構におけるペアワイズ類似度測定を再検討し, 既存の内積親和性が, 多様な特徴よりも識別的特徴をもたらすことを見出した。
この現象に照らして,二乗ユークリッド距離を用いてアフィニティを計算することにより,グローバルに多様な注意を喚起する。
また,映像中の冗長性を除去するために,局所的文脈に着目して局所的文脈情報をモデル化する。
これら2つの注意機構を組み合わせることで、ビデオの「textbf{SUM}marization model」と「Diversified Contextual Attention scheme」を開発し、SUM-DCAと命名する。
ベンチマークデータセットを用いて、Fスコアとランクに基づく評価においてSUM-DCAの有効性と優位性を検証する。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - Attention in Attention: Modeling Context Correlation for Efficient Video
Classification [47.938500236792244]
本稿では,注目度向上のためのAIA手法を提案する。
ビデオ特徴コンテキストを,グローバル平均およびプール操作を伴う特定の軸に沿って集約されたダイナミックスとしてインスタンス化する。
注意ユニット内の全ての計算処理は、プール化された次元に作用し、計算コストの増大は極めて少ない。
論文 参考訳(メタデータ) (2022-04-20T08:37:52Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Exploring global diverse attention via pairwise temporal relation for
video summarization [84.28263235895798]
我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
論文 参考訳(メタデータ) (2020-09-23T06:29:09Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。