論文の概要: T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2104.10054v1
- Date: Tue, 20 Apr 2021 15:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:29:39.114396
- Title: T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
- Title(参考訳): T2VLAD: テキストビデオ検索のためのグローバルローカルシーケンスアライメント
- Authors: Xiaohan Wang, Linchao Zhu, Yi Yang
- Abstract要約: テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
- 参考スコア(独自算出の注目度): 59.990432265734384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval is a challenging task that aims to search relevant video
contents based on natural language descriptions. The key to this problem is to
measure text-video similarities in a joint embedding space. However, most
existing methods only consider the global cross-modal similarity and overlook
the local details. Some works incorporate the local comparisons through
cross-modal local matching and reasoning. These complex operations introduce
tremendous computation. In this paper, we design an efficient global-local
alignment method. The multi-modal video sequences and text features are
adaptively aggregated with a set of shared semantic centers. The local
cross-modal similarities are computed between the video feature and text
feature within the same center. This design enables the meticulous local
comparison and reduces the computational cost of the interaction between each
text-video pair. Moreover, a global alignment method is proposed to provide a
global cross-modal measurement that is complementary to the local perspective.
The global aggregated visual features also provide additional supervision,
which is indispensable to the optimization of the learnable semantic centers.
We achieve consistent improvements on three standard text-video retrieval
benchmarks and outperform the state-of-the-art by a clear margin.
- Abstract(参考訳): テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
この問題の鍵は、共同埋め込み空間におけるテキストビデオの類似度を測定することである。
しかし、既存のほとんどの手法は、グローバルなクロスモーダル類似性のみを考慮し、局所的な詳細を見落としている。
いくつかの研究は、クロスモーダルな局所マッチングと推論を通じて局所比較を取り入れている。
これらの複雑な演算は膨大な計算をもたらす。
本稿では,効率的なグローバルアライメント手法を設計する。
マルチモーダルビデオシーケンスとテキスト特徴は、一連の共有セマンティックセンタで適応的に集約される。
ローカルなクロスモーダル類似性は、同じ中心内のビデオ機能とテキスト機能の間で計算される。
この設計により、微妙な局所比較が可能となり、各テキストビデオ対間の相互作用の計算コストを削減できる。
さらに,グローバルアライメント法を提案し,局所的な視点を補完する大域的クロスモーダル計測を行った。
グローバル集約された視覚的特徴は、学習可能なセマンティックセンターの最適化に不可欠である追加の監視を提供する。
3つの標準テキストビデオ検索ベンチマークで一貫した改善を達成し、最先端を明確なマージンで上回ります。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。