論文の概要: Video-Text Retrieval by Supervised Sparse Multi-Grained Learning
- arxiv url: http://arxiv.org/abs/2302.09473v2
- Date: Tue, 17 Oct 2023 22:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:52:26.054881
- Title: Video-Text Retrieval by Supervised Sparse Multi-Grained Learning
- Title(参考訳): Sparse Multi-Grained Learning によるビデオテキスト検索
- Authors: Yimu Wang, Peng Shi
- Abstract要約: 本稿では,ビデオとテキスト間で共有されるスパース空間を学習し,ビデオテキスト検索のための新しいスパース学習フレームワークであるS3MAを提案する。
テキストデータを手元に置き、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークによる実験により、既存の手法よりもS3MAの方が優れていることが示された。
- 参考スコア(独自算出の注目度): 22.17732989393653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent progress in video-text retrieval has been advanced by the
exploration of better representation learning, in this paper, we present a
novel multi-grained sparse learning framework, S3MA, to learn an aligned sparse
space shared between the video and the text for video-text retrieval. The
shared sparse space is initialized with a finite number of sparse concepts,
each of which refers to a number of words. With the text data at hand, we learn
and update the shared sparse space in a supervised manner using the proposed
similarity and alignment losses. Moreover, to enable multi-grained alignment,
we incorporate frame representations for better modeling the video modality and
calculating fine-grained and coarse-grained similarities. Benefiting from the
learned shared sparse space and multi-grained similarities, extensive
experiments on several video-text retrieval benchmarks demonstrate the
superiority of S3MA over existing methods. Our code is available at
https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval.
- Abstract(参考訳): 近年の映像テキスト検索の進歩は,より優れた表現学習の探求によって進んでいるが,本稿では,映像とテキストの間で共有されるスパース空間を学習するための,新しい多粒度スパース学習フレームワークs3maを提案する。
共有スパース空間は有限個のスパース概念で初期化され、それぞれが複数の単語を参照する。
テキストデータを用いて、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
さらに,多面的なアライメントを実現するために,フレーム表現を組み込んで映像のモダリティをモデル化し,細粒度と粗粒度の類似度を計算する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもS3MAの方が優れていることが示された。
私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Multiple Visual-Semantic Embedding for Video Retrieval from Query
Sentence [8.602553195689513]
ビジュアル・セマンティック・埋め込みは、関連ビデオと文のインスタンスが互いに近接している共同埋め込み空間を学習することを目的としている。
一つのスペースは、様々なビデオや文を収容するのに十分ではない。
本稿では,インスタンスを複数の個別埋め込み空間にマッピングする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-16T21:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。