論文の概要: HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2103.15049v1
- Date: Sun, 28 Mar 2021 04:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:25:56.406836
- Title: HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval
- Title(参考訳): HiT:ビデオテキスト検索のためのモーメントコントラスト付き階層変換器
- Authors: Song Liu and Haoqi Fan and Shengsheng Qian and Yiru Chen and Wenkui
Ding and Zhongyuan Wang
- Abstract要約: ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
- 参考スコア(独自算出の注目度): 40.646628490887075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video-Text Retrieval has been a hot research topic with the explosion of
multimedia data on the Internet. Transformer for video-text learning has
attracted increasing attention due to the promising performance.However,
existing cross-modal transformer approaches typically suffer from two major
limitations: 1) Limited exploitation of the transformer architecture where
different layers have different feature characteristics. 2) End-to-end training
mechanism limits negative interactions among samples in a mini-batch. In this
paper, we propose a novel approach named Hierarchical Transformer (HiT) for
video-text retrieval. HiT performs hierarchical cross-modal contrastive
matching in feature-level and semantic-level to achieve multi-view and
comprehensive retrieval results. Moreover, inspired by MoCo, we propose
Momentum Cross-modal Contrast for cross-modal learning to enable large-scale
negative interactions on-the-fly, which contributes to the generation of more
precise and discriminative representations. Experimental results on three major
Video-Text Retrieval benchmark datasets demonstrate the advantages of our
methods.
- Abstract(参考訳): インターネット上のマルチメディアデータの爆発的増加に伴い,ビデオテキスト検索はホットな研究課題となっている。
ビデオテキスト学習用トランスフォーマーは,有望な性能により注目を集めている。しかしながら,既存のクロスモーダルトランスフォーマーアプローチでは,(1)異なる層が異なる特徴を持つトランスフォーマーアーキテクチャの活用が制限されている。
2) エンドツーエンドトレーニング機構は, サンプル間の負の相互作用を制限する。
本稿では,ビデオテキスト検索のための階層変換器 (HiT) という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
さらに,MoCoに触発されたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
3つの主要ビデオテキスト検索ベンチマークデータセットの実験結果は,本手法の利点を示している。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Collaborative Three-Stream Transformers for Video Captioning [23.889653636822207]
我々は,COST(Collaborative Three-Stream Transformer)と呼ばれる新しいフレームワークを設計し,これら3つの部分を個別にモデル化し,表現性を向上する。
COSTは3つのトランスフォーマーによって形成され、ビデオとテキスト間の空間時間領域における異なる粒度の視覚的・言語的相互作用を利用する。
変圧器の3つの分岐によってモデル化された相互作用を整列させるため, 変圧器の3つの分岐が相互にサポートし, 異なる粒度の識別的意味情報を利用してキャプションの正確な予測を行う。
論文 参考訳(メタデータ) (2023-09-18T09:33:25Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。