論文の概要: MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization
- arxiv url: http://arxiv.org/abs/2204.08352v1
- Date: Mon, 18 Apr 2022 14:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 16:01:00.796476
- Title: MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization
- Title(参考訳): MHSCNet:ビデオ要約のためのマルチモーダル階層型ショットアウェア畳み込みネットワーク
- Authors: Wujiang Xu, Shaoshuai Li, Qiongxu Ma, Yunan Zhao, Sheng Guo, jeff
little Guo, Bing Han, Junchi Yan, Yifei Xu
- Abstract要約: 本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
- 参考スコア(独自算出の注目度): 60.094612549175594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization intends to produce a concise video summary by effectively
capturing and combining the most informative parts of the whole content.
Existing approaches for video summarization regard the task as a frame-wise
keyframe selection problem and generally construct the frame-wise
representation by combining the long-range temporal dependency with the
unimodal or bimodal information. However, the optimal video summaries need to
reflect the most valuable keyframe with its own information, and one with
semantic power of the whole content. Thus, it is critical to construct a more
powerful and robust frame-wise representation and predict the frame-level
importance score in a fair and comprehensive manner. To tackle the above
issues, we propose a multimodal hierarchical shot-aware convolutional network,
denoted as MHSCNet, to enhance the frame-wise representation via combining the
comprehensive available multimodal information. Specifically, we design a
hierarchical ShotConv network to incorporate the adaptive shot-aware
frame-level representation by considering the short-range and long-range
temporal dependency. Based on the learned shot-aware representations, MHSCNet
can predict the frame-level importance score in the local and global view of
the video. Extensive experiments on two standard video summarization datasets
demonstrate that our proposed method consistently outperforms state-of-the-art
baselines. Source code will be made publicly available.
- Abstract(参考訳): ビデオ要約は、コンテンツ全体の最も有益な部分を効果的に捉え結合することにより、簡潔なビデオ要約を作成することを目的としている。
既存のビデオ要約手法では、このタスクをフレームワイドキーフレーム選択問題とみなし、長い範囲の時間依存性と非モーダル情報やバイモーダル情報を組み合わせたフレームワイズ表現が一般的である。
しかし、最適なビデオ要約は、最も価値のあるキーフレームを自身の情報と、コンテンツ全体のセマンティックなパワーで反映する必要がある。
したがって、より強力で堅牢なフレームワイド表現を構築し、フレームレベルの重要度を公平かつ包括的に予測することが重要である。
上記の課題に対処するため,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
具体的には,ショートレンジとロングレンジの時間依存性を考慮して,適応的なフレームレベル表現を組み込む階層型ShotConvネットワークを設計する。
学習されたショットアウェア表現に基づいて、mhscnetはビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測できる。
2つの標準ビデオ要約データセットに関する広範囲な実験により,提案手法が最先端のベースラインを一貫して上回ることを示した。
ソースコードは公開される予定だ。
関連論文リスト
- UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Exploring global diverse attention via pairwise temporal relation for
video summarization [84.28263235895798]
我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
論文 参考訳(メタデータ) (2020-09-23T06:29:09Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation [0.0]
本稿では,自動要約のための教師あり学習フレームワークとして,SupiseNetを紹介する。
2ストリームの畳み込みネットワークを使用して、空間(外観)と時間(動き)の表現を学習する。
論文 参考訳(メタデータ) (2020-02-19T18:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。