論文の概要: UATVR: Uncertainty-Adaptive Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2301.06309v2
- Date: Sat, 19 Aug 2023 02:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 01:43:04.028572
- Title: UATVR: Uncertainty-Adaptive Text-Video Retrieval
- Title(参考訳): UATVR:不確実性対応のテキストビデオ検索
- Authors: Bo Fang, Wenhao Wu, Chang Liu, Yu Zhou, Yuxin Song, Weiping Wang,
Xiangbo Shu, Xiangyang Ji, Jingdong Wang
- Abstract要約: 一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
- 参考スコア(独自算出の注目度): 90.8952122146241
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the explosive growth of web videos and emerging large-scale
vision-language pre-training models, e.g., CLIP, retrieving videos of interest
with text instructions has attracted increasing attention. A common practice is
to transfer text-video pairs to the same embedding space and craft cross-modal
interactions with certain entities in specific granularities for semantic
correspondence. Unfortunately, the intrinsic uncertainties of optimal entity
combinations in appropriate granularities for cross-modal queries are
understudied, which is especially critical for modalities with hierarchical
semantics, e.g., video, text, etc. In this paper, we propose an
Uncertainty-Adaptive Text-Video Retrieval approach, termed UATVR, which models
each look-up as a distribution matching procedure. Concretely, we add
additional learnable tokens in the encoders to adaptively aggregate
multi-grained semantics for flexible high-level reasoning. In the refined
embedding space, we represent text-video pairs as probabilistic distributions
where prototypes are sampled for matching evaluation. Comprehensive experiments
on four benchmarks justify the superiority of our UATVR, which achieves new
state-of-the-art results on MSR-VTT (50.8%), VATEX (64.5%), MSVD (49.7%), and
DiDeMo (45.8%). The code is available at https://github.com/bofang98/UATVR.
- Abstract(参考訳): ウェブビデオの爆発的な成長とCLIPなどの大規模視覚言語事前学習モデルにより、テキスト命令による興味あるビデオの検索が注目されている。
一般的な実践は、テキストとビデオのペアを同じ埋め込み空間に転送し、意味的対応のための特定の粒度の特定のエンティティとの相互の相互作用を構築することである。
残念なことに、クロスモーダルクエリの適切な粒度における最適なエンティティの組み合わせの固有の不確実性は未熟であり、特に階層的意味論(例えばビデオ、テキストなど)を持つモダリティにとって重要である。
本稿では,各ルックアップを分散マッチング手順としてモデル化する,不確実性対応型テキストビデオ検索手法であるuatvrを提案する。
具体的には、エンコーダに学習可能なトークンを追加し、フレキシブルな高レベル推論のための多粒度セマンティクスを適応的に集約する。
埋め込み空間では,テキストとビデオのペアを確率分布として表現し,プロトタイプを標本化してマッチング評価を行う。
MSR-VTT(50.8%)、VATEX(64.5%)、MSVD(49.7%)、DiDeMo(45.8%)の4つのベンチマークによる総合的な実験は、我々のUATVRの優位性を正当化している。
コードはhttps://github.com/bofang98/UATVRで入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - ProTA: Probabilistic Token Aggregation for Text-Video Retrieval [15.891020334480826]
本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(ProTA)を提案する。
ProTAはMSR-VTT(50.9%)、SMDC(25.8%)、DiDeMo(47.2%)を大幅に改善する
論文 参考訳(メタデータ) (2024-04-18T14:20:30Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。