論文の概要: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval
- arxiv url: http://arxiv.org/abs/2001.09099v2
- Date: Tue, 18 Aug 2020 15:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 04:59:21.246106
- Title: TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval
- Title(参考訳): TVR:ビデオ字幕モーメント検索のための大規模データセット
- Authors: Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
- Abstract要約: テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
- 参考スコア(独自算出の注目度): 111.93601253692165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TV show Retrieval (TVR), a new multimodal retrieval dataset. TVR
requires systems to understand both videos and their associated subtitle
(dialogue) texts, making it more realistic. The dataset contains 109K queries
collected on 21.8K videos from 6 TV shows of diverse genres, where each query
is associated with a tight temporal window. The queries are also labeled with
query types that indicate whether each of them is more related to video or
subtitle or both, allowing for in-depth analysis of the dataset and the methods
that built on top of it. Strict qualification and post-annotation verification
tests are applied to ensure the quality of the collected data. Further, we
present several baselines and a novel Cross-modal Moment Localization (XML )
network for multimodal moment retrieval tasks. The proposed XML model uses a
late fusion design with a novel Convolutional Start-End detector (ConvSE),
surpassing baselines by a large margin and with better efficiency, providing a
strong starting point for future work. We have also collected additional
descriptions for each annotated moment in TVR to form a new multimodal
captioning dataset with 262K captions, named TV show Caption (TVC). Both
datasets are publicly available. TVR: https://tvr.cs.unc.edu, TVC:
https://tvr.cs.unc.edu/tvc.html.
- Abstract(参考訳): 本稿では,新しいマルチモーダル検索データセットRetrieval(TVR)を紹介する。
TVRはビデオとそれに関連する字幕(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kのビデオで収集された109Kのクエリが含まれている。
クエリには、それぞれがビデオやサブタイトルに関連があるか、あるいはその両方に関連があるかを示すクエリタイプがラベル付けされており、データセットとその上に構築されたメソッドの詳細な分析を可能にする。
収集したデータの品質を保証するために厳格な資格と注釈後の検証テストが適用される。
さらに,マルチモーダルモーメント検索タスクのためのベースラインと新しいクロスモーダルモーメント定位(xml)ネットワークを提案する。
提案したXMLモデルは、新しいConvolutional Start-End検出器(ConvSE)を備えた後期融合設計を使用し、ベースラインをはるかに上回り、効率が良く、将来の作業の出発点となる。
また,TVRの各アノテートモーメントについて,262Kキャプションを付加した新しいマルチモーダルキャプションデータセット,TVC (TV Show Caption) を作成した。
どちらのデータセットも公開されている。
TVR: https://tvr.cs.unc.edu, TVC: https://tvr.cs.unc.edu/tvc.html
関連論文リスト
- OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文 参考訳(メタデータ) (2024-07-24T08:22:49Z) - Video-CSR: Complex Video Digest Creation for Visual-Language Models [71.66614561702131]
実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための新しいタスクと人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の4.8KのYouTubeビデオクリップが含まれており、幅広いトピックや興味をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - CoVR: Learning Composed Video Retrieval from Web Video Captions [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - AssistSR: Affordance-centric Question-driven Video Segment Retrieval [4.047098915826058]
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:14:10Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。