論文の概要: HANet: Hierarchical Alignment Networks for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2107.12059v1
- Date: Mon, 26 Jul 2021 09:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:01:54.924897
- Title: HANet: Hierarchical Alignment Networks for Video-Text Retrieval
- Title(参考訳): HANet:ビデオテキスト検索のための階層的アライメントネットワーク
- Authors: Peng Wu, Xiangteng He, Mingqian Tang, Yiliang Lv, Jing Liu
- Abstract要約: ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
- 参考スコア(独自算出の注目度): 15.91922397215452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-text retrieval is an important yet challenging task in vision-language
understanding, which aims to learn a joint embedding space where related video
and text instances are close to each other. Most current works simply measure
the video-text similarity based on video-level and text-level embeddings.
However, the neglect of more fine-grained or local information causes the
problem of insufficient representation. Some works exploit the local details by
disentangling sentences, but overlook the corresponding videos, causing the
asymmetry of video-text representation. To address the above limitations, we
propose a Hierarchical Alignment Network (HANet) to align different level
representations for video-text matching. Specifically, we first decompose video
and text into three semantic levels, namely event (video and text), action
(motion and verb), and entity (appearance and noun). Based on these, we
naturally construct hierarchical representations in the individual-local-global
manner, where the individual level focuses on the alignment between frame and
word, local level focuses on the alignment between video clip and textual
context, and global level focuses on the alignment between the whole video and
text. Different level alignments capture fine-to-coarse correlations between
video and text, as well as take the advantage of the complementary information
among three semantic levels. Besides, our HANet is also richly interpretable by
explicitly learning key semantic concepts. Extensive experiments on two public
datasets, namely MSR-VTT and VATEX, show the proposed HANet outperforms other
state-of-the-art methods, which demonstrates the effectiveness of hierarchical
representation and alignment. Our code is publicly available.
- Abstract(参考訳): ビデオテキスト検索は視覚言語理解において重要かつ挑戦的なタスクであり、関連するビデオとテキストインスタンスが互いに近接する埋め込み空間を学ぶことを目的としている。
現在のほとんどの研究は、ビデオレベルとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を測定する。
しかし、よりきめ細かい情報や局所的な情報の無視は、表現が不十分な問題を引き起こす。
一部の作品では、文章を否定することで局所的な詳細を利用するが、対応するビデオを見落とし、ビデオテキスト表現の非対称性を引き起こす。
上記の制約に対処するため,ビデオテキストマッチングのための階層アライメントネットワーク(HANet)を提案する。
具体的には、まず、ビデオとテキストを、イベント(ビデオとテキスト)、アクション(モーションと動詞)、実体(出現と名詞)の3つの意味レベルに分解する。
これらのことから,個々のレベルがフレームと単語のアライメントに,局所レベルがビデオクリップとテキストコンテキストのアライメントに,グローバルレベルがビデオ全体とテキスト間のアライメントに,といった局所的表現を自然に構築する。
異なるレベルのアライメントは、ビデオとテキスト間の微妙な相関を捉え、また3つのセマンティックレベルの相補的な情報を利用する。
さらに、私たちのHANetは、キーセマンティックな概念を明示的に学習することで、十分に解釈できます。
MSR-VTTとVATEXという2つの公開データセットに対する大規模な実験では、提案されたHANetは他の最先端手法よりも優れており、階層的表現とアライメントの有効性を示している。
私たちのコードは公開されています。
関連論文リスト
- Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。