論文の概要: Video and Text Matching with Conditioned Embeddings
- arxiv url: http://arxiv.org/abs/2110.11298v1
- Date: Thu, 21 Oct 2021 17:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 19:32:04.081367
- Title: Video and Text Matching with Conditioned Embeddings
- Title(参考訳): 条件付き埋め込みによるビデオとテキストのマッチング
- Authors: Ameen Ali, Idan Schwartz, Tamir Hazan, Lior Wolf
- Abstract要約: 本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
- 参考スコア(独自算出の注目度): 81.81028089100727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for matching a text sentence from a given corpus to a
given video clip and vice versa. Traditionally video and text matching is done
by learning a shared embedding space and the encoding of one modality is
independent of the other. In this work, we encode the dataset data in a way
that takes into account the query's relevant information. The power of the
method is demonstrated to arise from pooling the interaction data between words
and frames. Since the encoding of the video clip depends on the sentence
compared to it, the representation needs to be recomputed for each potential
match. To this end, we propose an efficient shallow neural network. Its
training employs a hierarchical triplet loss that is extendable to
paragraph/video matching. The method is simple, provides explainability, and
achieves state-of-the-art results for both sentence-clip and video-text by a
sizable margin across five different datasets: ActivityNet, DiDeMo, YouCook2,
MSR-VTT, and LSMDC. We also show that our conditioned representation can be
transferred to video-guided machine translation, where we improved the current
results on VATEX. Source code is available at
https://github.com/AmeenAli/VideoMatch.
- Abstract(参考訳): 本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
伝統的に、ビデオとテキストのマッチングは共有埋め込み空間を学習することで行われ、一方のモダリティの符号化は他方とは独立である。
本研究では,クエリの関連情報を考慮し,データセットデータを符号化する。
この手法のパワーは、単語とフレーム間の相互作用データをプールすることで得られる。
ビデオクリップのエンコーディングは、それと比較して文に依存するため、潜在的なマッチごとに表現を再計算する必要がある。
そこで我々は,効率的な浅層ニューラルネットワークを提案する。
その訓練は、段落/ビデオマッチングに拡張可能な階層的な三重項損失を用いる。
この方法はシンプルで、説明可能性を提供し、ActivityNet, DiDeMo, YouCook2, MSR-VTT, LSMDCの5つの異なるデータセットにまたがって、文クリップとビデオテキストの両方の最先端の結果を得る。
また、条件付き表現はビデオ誘導機械翻訳に転送可能であることを示し、VATEXの現在の結果を改善した。
ソースコードはhttps://github.com/AmeenAli/VideoMatch.comで入手できる。
関連論文リスト
- A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning [153.54638582696128]
本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
論文 参考訳(メタデータ) (2022-06-21T16:02:12Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。