論文の概要: Support-set bottlenecks for video-text representation learning
- arxiv url: http://arxiv.org/abs/2010.02824v2
- Date: Thu, 14 Jan 2021 10:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:32:30.516447
- Title: Support-set bottlenecks for video-text representation learning
- Title(参考訳): 映像テキスト表現学習のためのサポートセットボトルネック
- Authors: Mandela Patrick, Po-Yao Huang, Yuki Asano, Florian Metze, Alexander
Hauptmann, Jo\~ao Henriques, Andrea Vedaldi
- Abstract要約: ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
- 参考スコア(独自算出の注目度): 131.4161071785107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm for learning video-text representations -- noise
contrastive learning -- increases the similarity of the representations of
pairs of samples that are known to be related, such as text and video from the
same sample, and pushes away the representations of all other pairs. We posit
that this last behaviour is too strict, enforcing dissimilar representations
even for samples that are semantically-related -- for example, visually similar
videos or ones that share the same depicted action. In this paper, we propose a
novel method that alleviates this by leveraging a generative model to naturally
push these related samples together: each sample's caption must be
reconstructed as a weighted combination of other support samples' visual
representations. This simple idea ensures that representations are not
overly-specialized to individual samples, are reusable across the dataset, and
results in representations that explicitly encode semantics shared between
samples, unlike noise contrastive learning. Our proposed method outperforms
others by a large margin on MSR-VTT, VATEX and ActivityNet, and MSVD for
video-to-text and text-to-video retrieval.
- Abstract(参考訳): ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは、同じサンプルからテキストやビデオなど、関連があることが知られているサンプルのペアの表現の類似性を高め、他のすべてのペアの表現を排除している。
例えば、視覚的に類似したビデオや、同じ描写されたアクションを共有するサンプルであっても、この最後の行動は厳格すぎると仮定する。
本稿では,これらの関連標本を自然にプッシュするために生成モデルを用いることにより,これを緩和する新しい手法を提案する。
この単純なアイデアは、表現が個々のサンプルに過度に特殊化されていないことを保証し、データセット全体で再利用され、ノイズコントラスト学習とは異なり、サンプル間で共有されるセマンティクスを明示的にエンコードする表現をもたらす。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れている。
関連論文リスト
- Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Partitioning Image Representation in Contrastive Learning [0.0]
コントラスト学習において,アンカーの共通および特異な特徴と正のサンプルの両方を学習できる新しい表現,分割表現を導入する。
本稿では,VAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,下流タスクとして数ショットの学習タスクを実現できることを示す。
論文 参考訳(メタデータ) (2022-03-20T04:55:39Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z) - Active Contrastive Learning of Audio-Visual Video Representations [35.59750167222663]
そこで本稿では,多種多様かつ情報のある辞書をテキスト化して構築する,アクティブコントラスト学習手法を提案する。
我々のモデルは、挑戦的なオーディオとビジュアルダウンストリームのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-31T21:18:30Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。