論文の概要: Video-Text Retrieval by Supervised Multi-Space Multi-Grained Alignment
- arxiv url: http://arxiv.org/abs/2302.09473v1
- Date: Sun, 19 Feb 2023 04:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:18:14.597798
- Title: Video-Text Retrieval by Supervised Multi-Space Multi-Grained Alignment
- Title(参考訳): マルチスペース多点アライメントによるビデオテキスト検索
- Authors: Yimu Wang, Peng Shi
- Abstract要約: 我々は,ビデオとテキスト間で共有された整合性のある空間をビデオテキスト検索のために学習するための,新しいマルチスペース多粒型教師付き学習フレームワークSUMAを提案する。
テキストデータが手元にあるので、提案した類似性やアライメント損失を利用して、共有されたアライメント空間を教師付きで更新することができる。
学習された共有整合空間と多粒度類似性から、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもSUMAの方が優れていることが示された。
- 参考スコア(独自算出の注目度): 31.69906429337528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent progress in video-text retrieval has been advanced by the
exploration of better representation learning, in this paper, we present a
novel multi-space multi-grained supervised learning framework, SUMA, to learn
an aligned representation space shared between the video and the text for
video-text retrieval. The shared aligned space is initialized with a finite
number of concept clusters, each of which refers to a number of basic concepts
(words). With the text data at hand, we are able to update the shared aligned
space in a supervised manner using the proposed similarity and alignment
losses. Moreover, to enable multi-grained alignment, we incorporate frame
representations for better modeling the video modality and calculating
fine-grained and coarse-grained similarity. Benefiting from learned shared
aligned space and multi-grained similarity, extensive experiments on several
video-text retrieval benchmarks demonstrate the superiority of SUMA over
existing methods.
- Abstract(参考訳): 近年の映像テキスト検索の進歩は,より優れた表現学習の探求によって進んでいるが,本稿では,映像とテキストの間で共有されるアライメント表現空間を学習するための,新しいマルチスペース多粒度教師付き学習フレームワークsumaを提案する。
共有整列空間は有限個の概念クラスタで初期化され、それぞれが多くの基本的な概念(単語)を参照する。
テキストデータが手元にある場合,提案する類似性とアライメント損失を用いて,共有アライメント空間を教師ありに更新することができる。
さらに,多粒度アライメントを実現するために,映像のモダリティをモデル化し,細粒度および粗粒度類似度を計算するフレーム表現を組み込んだ。
学習された共有整合空間と多粒度類似性から、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもSUMAの方が優れていることが示された。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Multiple Visual-Semantic Embedding for Video Retrieval from Query
Sentence [8.602553195689513]
ビジュアル・セマンティック・埋め込みは、関連ビデオと文のインスタンスが互いに近接している共同埋め込み空間を学習することを目的としている。
一つのスペースは、様々なビデオや文を収容するのに十分ではない。
本稿では,インスタンスを複数の個別埋め込み空間にマッピングする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-16T21:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。