論文の概要: Normalized Contrastive Learning for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2212.11790v1
- Date: Wed, 30 Nov 2022 19:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:10:04.269437
- Title: Normalized Contrastive Learning for Text-Video Retrieval
- Title(参考訳): テキストビデオ検索のための正規化コントラスト学習
- Authors: Yookoon Park, Mahmoud Azab, Bo Xiong, Seungwhan Moon, Florian Metze,
Gourab Kundu, Kirmani Ahmed
- Abstract要約: クロスモーダルコントラスト学習は、その単純さと有効性により、近年のマルチモーダル検索の進歩につながっている。
比較学習は,各テキストやビデオインスタンスの総和検索確率の不正な正規化に悩まされていることを示す。
本稿では,各インスタンスの総和検索確率を適切に正規化する,インスタンス単位のバイアスを計算する正規化コントラスト学習を提案する。
- 参考スコア(独自算出の注目度): 40.56493140306364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal contrastive learning has led the recent advances in multimodal
retrieval with its simplicity and effectiveness. In this work, however, we
reveal that cross-modal contrastive learning suffers from incorrect
normalization of the sum retrieval probabilities of each text or video
instance. Specifically, we show that many test instances are either over- or
under-represented during retrieval, significantly hurting the retrieval
performance. To address this problem, we propose Normalized Contrastive
Learning (NCL) which utilizes the Sinkhorn-Knopp algorithm to compute the
instance-wise biases that properly normalize the sum retrieval probabilities of
each instance so that every text and video instance is fairly represented
during cross-modal retrieval. Empirical study shows that NCL brings consistent
and significant gains in text-video retrieval on different model architectures,
with new state-of-the-art multimodal retrieval metrics on the ActivityNet,
MSVD, and MSR-VTT datasets without any architecture engineering.
- Abstract(参考訳): クロスモーダルコントラスト学習は,最近のマルチモーダル検索の進歩を,その単純さと有効性で導いてきた。
しかし,本研究では,クロスモーダルコントラスト学習は,各テキストやビデオインスタンスの和検索確率の正規化に苦しむことが明らかになった。
具体的には,多くのテストインスタンスが検索中に過剰あるいは過剰に表現され,検索性能を著しく損なうことを示す。
この問題に対処するため,Sinkhorn-Knoppアルゴリズムを用いた正規化コントラスト学習(NCL)を提案する。
実証研究によれば、nclは、さまざまなモデルアーキテクチャにおけるテキスト・ビデオの検索に一貫性があり、また、アーキテクチャ工学なしでactivitynet、msvd、msr-vttデータセットに最先端のマルチモーダル検索メトリクスをもたらす。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval
and Highlight Detection [46.25856560381347]
我々は、Unified Multi-modal Transformers (UMT) という、最初の統一されたフレームワークを提示する。
UMTはそのような共同最適化を実現することができるが、個々の問題を解決するために容易に分解できる。
我々の知る限り、これは共同最適化と個別モーメント検索のいずれにもマルチモーダル(視覚)学習を統合する最初のスキームである。
論文 参考訳(メタデータ) (2022-03-23T22:11:43Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。