Fugu-MT 論文翻訳(概要): Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

論文の概要: Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

arxiv url: http://arxiv.org/abs/2211.11427v1
Date: Mon, 21 Nov 2022 13:12:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 21:19:51.161886
Title: Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations
Title（参考訳）: コンパクト・ビデオ・言語表現のための期待最大化コントラスト学習
Authors: Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen
Abstract要約: 我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。 3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
参考スコア（独自算出の注目度）: 54.62547989034184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.
Abstract（参考訳）: ほとんどのビデオと言語による表現学習のアプローチでは、ビデオとテキストの機能をテキストとビデオのペアの意味的類似性に応じて共通の潜在空間に投影するために、対照的な学習を用いる。しかし、そのような学習された共有潜在空間は必ずしも最適ではなく、視覚的表現とテキスト的表現のモダリティギャップを完全に排除することはできない。本稿では,コンパクトなビデオ・言語表現を学習するための予測最大化コントラスト学習(EMCL)を提案する。具体的には、期待最大化アルゴリズムを用いて潜在空間のコンパクトな基底集合を見つけ、そこで特徴をこれらの基底の線型結合として簡潔に表現することができる。このようなビデオと言語表現の分解は潜在空間のランクを減少させ、意味論の表現力を高める。 3つのベンチマークテキスト・ビデオ検索データセットに関する広範囲な実験により、我々のemclは、以前の方法よりも差別的なビデオ・アンド・言語表現を学習でき、すべてのメトリクスで以前の最先端のメソッドを著しく上回っています。さらに,提案手法は,既存の手法に組み込むのが容易になるように,余分なトレーニングを伴わない共同トレーニング層やアウト・オブ・ザ・ボックス推論モジュールとして,既存の手法の性能を高めるために適用することができる。

関連論文リスト

Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。 LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-15T13:56:14Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。 MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文参考訳（メタデータ） (2024-02-26T17:36:50Z)
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文参考訳（メタデータ） (2024-01-01T08:54:18Z)
UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。 UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文参考訳（メタデータ） (2023-01-16T08:43:17Z)
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文参考訳（メタデータ） (2022-11-07T05:32:12Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文参考訳（メタデータ） (2021-12-02T13:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。