論文の概要: Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization
- arxiv url: http://arxiv.org/abs/2112.13478v1
- Date: Mon, 27 Dec 2021 01:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:58:45.037563
- Title: Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization
- Title(参考訳): 階層的トランスフォーマによる共商品化のためのビデオジョイントモデリング
- Authors: Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui
- Abstract要約: ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としており、大規模なビデオ検索とブラウジングを容易にする。
既存の手法の多くは、類似したビデオ間の相関を無視する個々のビデオに対して、動画要約を行う。
階層変換器(VJMHT)を併用したビデオジョイントモデリングを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims to automatically generate a summary (storyboard or
video skim) of a video, which can facilitate large-scale video retrieving and
browsing. Most of the existing methods perform video summarization on
individual videos, which neglects the correlations among similar videos. Such
correlations, however, are also informative for video understanding and video
summarization. To address this limitation, we propose Video Joint Modelling
based on Hierarchical Transformer (VJMHT) for co-summarization, which takes
into consideration the semantic dependencies across videos. Specifically, VJMHT
consists of two layers of Transformer: the first layer extracts semantic
representation from individual shots of similar videos, while the second layer
performs shot-level video joint modelling to aggregate cross-video semantic
information. By this means, complete cross-video high-level patterns are
explicitly modelled and learned for the summarization of individual videos.
Moreover, Transformer-based video representation reconstruction is introduced
to maximize the high-level similarity between the summary and the original
video. Extensive experiments are conducted to verify the effectiveness of the
proposed modules and the superiority of VJMHT in terms of F-measure and
rank-based evaluation.
- Abstract(参考訳): ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としている。
既存の手法のほとんどは個々のビデオでビデオ要約を行い、類似したビデオ間の相関を無視する。
しかし,このような相関関係は映像理解や映像要約にも有用である。
この制限に対処するために,ビデオ間のセマンティック依存関係を考慮した階層変換器(VJMHT)を用いたビデオジョイントモデリングを提案する。
具体的には、vjmhtはトランスフォーマーの2層で構成され、第1層は類似したビデオの個々のショットから意味表現を抽出し、第2層はショットレベルのビデオジョイントモデリングを行い、ビデオ間の意味情報を集約する。
つまり、完全なクロスビデオのハイレベルパターンは、個々のビデオの要約のために明示的にモデル化され、学習される。
さらに,トランスフォーマーに基づく映像表現再構成を導入し,要約とオリジナル映像との高レベルな類似性を最大化する。
提案したモジュールの有効性と,F測定およびランクベース評価の観点からVJMHTの優位性を検証するために,広範囲な実験を行った。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。