論文の概要: Contrastive Video-Language Learning with Fine-grained Frame Sampling
- arxiv url: http://arxiv.org/abs/2210.05039v1
- Date: Mon, 10 Oct 2022 22:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:47:10.713972
- Title: Contrastive Video-Language Learning with Fine-grained Frame Sampling
- Title(参考訳): きめ細かいフレームサンプリングによるコントラスト映像言語学習
- Authors: Zixu Wang, Yujie Zhong, Yishu Miao, Lin Ma, Lucia Specia
- Abstract要約: FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
- 参考スコア(独自算出の注目度): 54.542962813921214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in video and language representation learning, the
weak or sparse correspondence between the two modalities remains a bottleneck
in the area. Most video-language models are trained via pair-level loss to
predict whether a pair of video and text is aligned. However, even in paired
video-text segments, only a subset of the frames are semantically relevant to
the corresponding text, with the remainder representing noise; where the ratio
of noisy frames is higher for longer videos. We propose FineCo (Fine-grained
Contrastive Loss for Frame Sampling), an approach to better learn video and
language representations with a fine-grained contrastive objective operating on
video frames. It helps distil a video by selecting the frames that are
semantically equivalent to the text, improving cross-modal correspondence.
Building on the well established VideoCLIP model as a starting point, FineCo
achieves state-of-the-art performance on YouCookII, a text-video retrieval
benchmark with long videos. FineCo also achieves competitive results on
text-video retrieval (MSR-VTT), and video question answering datasets (MSR-VTT
QA and MSR-VTT MC) with shorter videos.
- Abstract(参考訳): ビデオと言語表現学習の最近の進歩にもかかわらず、この2つのモダリティ間の弱いあるいは疎い対応は、この分野のボトルネックのままである。
ほとんどのビデオ言語モデルはペアレベルの損失によってトレーニングされ、ペアのビデオとテキストが一致しているかどうかを予測する。
しかし、一対のビデオテキストセグメントであっても、フレームのサブセットのみが対応するテキストに意味的に関係しており、残りの部分はノイズを表す。
本研究では,ビデオフレーム上で動作する細粒度コントラスト目標を用いて,映像と言語表現をよりよく学習する手法であるファインコ(きめきめのコントラストロス)を提案する。
テキストと意味的に等価なフレームを選択し、クロスモーダル対応を改善することで、ビデオの分割を支援する。
FineCoは、よく確立されたVideoCLIPモデルを出発点として構築し、長いビデオを含むテキストビデオ検索ベンチマークであるYouCookIIの最先端のパフォーマンスを達成する。
FineCoはテキストビデオ検索(MSR-VTT)と短いビデオによるビデオ質問応答データセット(MSR-VTT QAとMSR-VTT MC)の競争結果も達成している。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。