論文の概要: ProTA: Probabilistic Token Aggregation for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2404.12216v2
- Date: Sat, 20 Apr 2024 04:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 12:38:52.553177
- Title: ProTA: Probabilistic Token Aggregation for Text-Video Retrieval
- Title(参考訳): ProTA: テキスト検索のための確率的トークン集約
- Authors: Han Fang, Xianghao Zang, Chao Ban, Zerun Feng, Lanxiang Zhou, Zhongjiang He, Yongxiang Li, Hao Sun,
- Abstract要約: 本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(ProTA)を提案する。
ProTAはMSR-VTT(50.9%)、SMDC(25.8%)、DiDeMo(47.2%)を大幅に改善する
- 参考スコア(独自算出の注目度): 15.891020334480826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-video retrieval aims to find the most relevant cross-modal samples for a given query. Recent methods focus on modeling the whole spatial-temporal relations. However, since video clips contain more diverse content than captions, the model aligning these asymmetric video-text pairs has a high risk of retrieving many false positive results. In this paper, we propose Probabilistic Token Aggregation (ProTA) to handle cross-modal interaction with content asymmetry. Specifically, we propose dual partial-related aggregation to disentangle and re-aggregate token representations in both low-dimension and high-dimension spaces. We propose token-based probabilistic alignment to generate token-level probabilistic representation and maintain the feature representation diversity. In addition, an adaptive contrastive loss is proposed to learn compact cross-modal distribution space. Based on extensive experiments, ProTA achieves significant improvements on MSR-VTT (50.9%), LSMDC (25.8%), and DiDeMo (47.2%).
- Abstract(参考訳): テキストビデオ検索は、あるクエリに対して最も関連性の高いクロスモーダルサンプルを見つけることを目的としている。
近年の手法は空間的・時間的関係のモデル化に重点を置いている。
しかし、ビデオクリップはキャプションよりも多様な内容を含んでいるため、これらの非対称なビデオテキストペアを整列させるモデルは、多くの偽陽性結果を取得するリスクが高い。
本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(ProTA)を提案する。
具体的には、低次元空間と高次元空間の両方において、トークン表現をアンタングルと再集約する2つの部分関連アグリゲーションを提案する。
トークンレベルの確率的表現を生成し,特徴表現の多様性を維持するために,トークンベースの確率的アライメントを提案する。
さらに、コンパクトなクロスモーダル分布空間を学習するために、適応的なコントラスト損失を提案する。
広範な実験に基づいて、ProTAはMSR-VTT(50.9%)、LSMDC(25.8%)、DiDeMo(47.2%)を大幅に改善した。
関連論文リスト
- ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Probabilistic Embeddings for Cross-Modal Retrieval [38.04859099157609]
クロスモーダル検索法は、複数のモダリティからのサンプルの共通表現空間を構築する。
本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。
代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
論文 参考訳(メタデータ) (2021-01-13T13:58:00Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。