論文の概要: Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations
- arxiv url: http://arxiv.org/abs/2211.11427v1
- Date: Mon, 21 Nov 2022 13:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:19:51.161886
- Title: Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations
- Title(参考訳): コンパクト・ビデオ・言語表現のための期待最大化コントラスト学習
- Authors: Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song,
David A. Clifton, Jie Chen
- Abstract要約: 我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
- 参考スコア(独自算出の注目度): 54.62547989034184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most video-and-language representation learning approaches employ contrastive
learning, e.g., CLIP, to project the video and text features into a common
latent space according to the semantic similarities of text-video pairs.
However, such learned shared latent spaces are not often optimal, and the
modality gap between visual and textual representation can not be fully
eliminated. In this paper, we propose Expectation-Maximization Contrastive
Learning (EMCL) to learn compact video-and-language representations.
Specifically, we use the Expectation-Maximization algorithm to find a compact
set of bases for the latent space, where the features could be concisely
represented as the linear combinations of these bases. Such feature
decomposition of video-and-language representations reduces the rank of the
latent space, resulting in increased representing power for the semantics.
Extensive experiments on three benchmark text-video retrieval datasets prove
that our EMCL can learn more discriminative video-and-language representations
than previous methods, and significantly outperform previous state-of-the-art
methods across all metrics. More encouragingly, the proposed method can be
applied to boost the performance of existing approaches either as a jointly
training layer or an out-of-the-box inference module with no extra training,
making it easy to be incorporated into any existing methods.
- Abstract(参考訳): ほとんどのビデオと言語による表現学習のアプローチでは、ビデオとテキストの機能をテキストとビデオのペアの意味的類似性に応じて共通の潜在空間に投影するために、対照的な学習を用いる。
しかし、そのような学習された共有潜在空間は必ずしも最適ではなく、視覚的表現とテキスト的表現のモダリティギャップを完全に排除することはできない。
本稿では,コンパクトなビデオ・言語表現を学習するための予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて潜在空間のコンパクトな基底集合を見つけ、そこで特徴をこれらの基底の線型結合として簡潔に表現することができる。
このようなビデオと言語表現の分解は潜在空間のランクを減少させ、意味論の表現力を高める。
3つのベンチマークテキスト・ビデオ検索データセットに関する広範囲な実験により、我々のemclは、以前の方法よりも差別的なビデオ・アンド・言語表現を学習でき、すべてのメトリクスで以前の最先端のメソッドを著しく上回っています。
さらに,提案手法は,既存の手法に組み込むのが容易になるように,余分なトレーニングを伴わない共同トレーニング層やアウト・オブ・ザ・ボックス推論モジュールとして,既存の手法の性能を高めるために適用することができる。
関連論文リスト
- Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Interpretable Embedding for Ad-hoc Video Search [36.29531713757939]
本稿では,統合されたデュアルタスク学習のためのニューラルネットワークに,特徴埋め込みと概念解釈を統合する。
これは、埋め込み機能または概念を使用することで、TRECVidベンチマークデータセット上でかなりの検索改善が達成可能であることを実証的に示している。
論文 参考訳(メタデータ) (2024-02-19T03:59:32Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Video-Text Retrieval by Supervised Sparse Multi-Grained Learning [22.17732989393653]
本稿では,ビデオとテキスト間で共有されるスパース空間を学習し,ビデオテキスト検索のための新しいスパース学習フレームワークであるS3MAを提案する。
テキストデータを手元に置き、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークによる実験により、既存の手法よりもS3MAの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-02-19T04:03:22Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。