論文の概要: Hierarchical Multimodal Transformer to Summarize Videos
- arxiv url: http://arxiv.org/abs/2109.10559v1
- Date: Wed, 22 Sep 2021 07:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:58:18.143374
- Title: Hierarchical Multimodal Transformer to Summarize Videos
- Title(参考訳): 階層型マルチモーダルトランスによる映像要約
- Authors: Bin Zhao, Maoguo Gong, Xuelong Li
- Abstract要約: 変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
- 参考スコア(独自算出の注目度): 103.47766795086206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although video summarization has achieved tremendous success benefiting from
Recurrent Neural Networks (RNN), RNN-based methods neglect the global
dependencies and multi-hop relationships among video frames, which limits the
performance. Transformer is an effective model to deal with this problem, and
surpasses RNN-based methods in several sequence modeling tasks, such as machine
translation, video captioning, \emph{etc}. Motivated by the great success of
transformer and the natural structure of video (frame-shot-video), a
hierarchical transformer is developed for video summarization, which can
capture the dependencies among frame and shots, and summarize the video by
exploiting the scene information formed by shots. Furthermore, we argue that
both the audio and visual information are essential for the video summarization
task. To integrate the two kinds of information, they are encoded in a
two-stream scheme, and a multimodal fusion mechanism is developed based on the
hierarchical transformer. In this paper, the proposed method is denoted as
Hierarchical Multimodal Transformer (HMT). Practically, extensive experiments
show that HMT surpasses most of the traditional, RNN-based and attention-based
video summarization methods.
- Abstract(参考訳): ビデオ要約は、リカレントニューラルネットワーク(RNN)の恩恵を受けているが、RNNベースの手法は、ビデオフレーム間のグローバル依存関係やマルチホップ関係を無視し、パフォーマンスを制限している。
Transformerはこの問題に対処するための効果的なモデルであり、機械翻訳、ビデオキャプション、 \emph{etc} など、いくつかのシーケンスモデリングタスクにおいて、RNNベースのメソッドを超える。
変圧器の大成功と映像の自然な構造(フレームショットビデオ)に動機づけられた階層的変圧器を開発し,フレームとショット間の依存関係をキャプチャし,シーン情報を利用して映像を要約する。
さらに,映像要約作業には音声情報と視覚情報の両方が不可欠であると主張する。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
本稿では,提案手法を階層型マルチモーダルトランス (HMT) と呼ぶ。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
関連論文リスト
- Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization [0.0]
ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としており、大規模なビデオ検索とブラウジングを容易にする。
既存の手法の多くは、類似したビデオ間の相関を無視する個々のビデオに対して、動画要約を行う。
階層変換器(VJMHT)を併用したビデオジョイントモデリングを提案する。
論文 参考訳(メタデータ) (2021-12-27T01:54:35Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。