論文の概要: Video Moment Retrieval with Text Query Considering Many-to-Many
Correspondence Using Potentially Relevant Pair
- arxiv url: http://arxiv.org/abs/2106.13566v1
- Date: Fri, 25 Jun 2021 11:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:05:48.339967
- Title: Video Moment Retrieval with Text Query Considering Many-to-Many
Correspondence Using Potentially Relevant Pair
- Title(参考訳): 多対多対応を考慮したテキストクエリによるビデオモーメント検索
- Authors: Sho Maeoki, Yusuke Mukuta, Tatsuya Harada
- Abstract要約: ビデオコーパスからテキストベースの動画モーメント検索を行う。
モデルをトレーニングするために、テキストとモーメントのペアデータセットが使用された。
本稿では,潜在的に関連するペアを利用する新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 68.73163598790255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we undertake the task of text-based video moment retrieval from
a corpus of videos. To train the model, text-moment paired datasets were used
to learn the correct correspondences. In typical training methods, ground-truth
text-moment pairs are used as positive pairs, whereas other pairs are regarded
as negative pairs. However, aside from the ground-truth pairs, some text-moment
pairs should be regarded as positive. In this case, one text annotation can be
positive for many video moments. Conversely, one video moment can be
corresponded to many text annotations. Thus, there are many-to-many
correspondences between the text annotations and video moments. Based on these
correspondences, we can form potentially relevant pairs, which are not given as
ground truth yet are not negative; effectively incorporating such relevant
pairs into training can improve the retrieval performance. The text query
should describe what is happening in a video moment. Hence, different video
moments annotated with similar texts, which contain a similar action, are
likely to hold the similar action, thus these pairs can be considered as
potentially relevant pairs. In this paper, we propose a novel training method
that takes advantage of potentially relevant pairs, which are detected based on
linguistic analysis about text annotation. Experiments on two benchmark
datasets revealed that our method improves the retrieval performance both
quantitatively and qualitatively.
- Abstract(参考訳): 本稿では,ビデオコーパスからテキストベースの映像モーメント検索を行う。
モデルをトレーニングするために、テキストモーメントペアデータセットを使用して正しい対応を学習した。
典型的な訓練法では、接地型テキストモーメントペアは正の対として、他のペアは負の対として用いられる。
しかし、地対と地対は別として、一部の文対は正と見なすべきである。
この場合、1つのテキストアノテーションは多くのビデオモーメントに対して陽性となる。
逆に、あるビデオモーメントは多くのテキストアノテーションに対応できる。
したがって、テキストアノテーションとビデオモーメントの間には多くの対多の対応がある。
これらの対応に基づき、基礎的真理として与えられていなくても否定的でない潜在的に関連性のあるペアを形成することができ、そのような関連性のあるペアを効果的にトレーニングに組み込むことで、検索性能を向上させることができる。
テキストクエリは、ビデオの瞬間に起きていることを記述すべきである。
したがって、類似したアクションを含む類似のテキストでアノテートされた異なるビデオモーメントは、類似のアクションを持つ可能性が高いため、これらのペアは関連するペアと見なすことができる。
本稿では,テキストアノテーションに関する言語解析に基づいて,潜在的に関連のあるペアを活用できる新しい学習手法を提案する。
2つのベンチマークデータセットを用いた実験により,本手法は定量的かつ定性的に検索性能を向上することがわかった。
関連論文リスト
- VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? [19.313541287648473]
VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。
認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。
私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。