論文の概要: A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension
- arxiv url: http://arxiv.org/abs/2305.03347v1
- Date: Fri, 5 May 2023 08:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:01:06.931355
- Title: A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension
- Title(参考訳): 読解を伴う大規模クロスモーダルビデオ検索データセット
- Authors: Weijia Wu and Yuzhong Zhao, Zhuang Li and Jiahong Li, Hong Zhou and
Mike Zheng Shou and Xiang Bai
- Abstract要約: テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
- 参考スコア(独自算出の注目度): 49.74647080936875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing cross-modal language-to-video retrieval (VR) research focuses
on single-modal input from video, i.e., visual representation, while the text
is omnipresent in human environments and frequently critical to understand
video. To study how to retrieve video with both modal inputs, i.e., visual and
text semantic representations, we first introduce a large-scale and cross-modal
Video Retrieval dataset with text reading comprehension, TextVR, which contains
42.2k sentence queries for 10.5k videos of 8 scenario domains, i.e., Street
View (indoor), Street View (outdoor), Games, Sports, Driving, Activity, TV
Show, and Cooking. The proposed TextVR requires one unified cross-modal model
to recognize and comprehend texts, relate them to the visual context, and
decide what text semantic information is vital for the video retrieval task.
Besides, we present a detailed analysis of TextVR compared to the existing
datasets and design a novel multimodal video retrieval baseline for the
text-based video retrieval task. The dataset analysis and extensive experiments
show that our TextVR benchmark provides many new technical challenges and
insights from previous datasets for the video-and-language community. The
project website and GitHub repo can be found at
https://sites.google.com/view/loveucvpr23/guest-track and
https://github.com/callsys/TextVR, respectively.
- Abstract(参考訳): 既存のクロスモーダル言語からビデオへの検索(vr)研究のほとんどは、ビデオからの単一モーダル入力、すなわち視覚的表現に焦点を当てている。
視覚とテキストの両方のセマンティクス表現を用いた映像の検索方法を検討するため,まずテキスト読み理解を備えた大規模かつクロスモーダルなビデオ検索データセットtextvrを導入する。textvrは8シナリオドメインの10.5kビデオに対して,42.2kの文クエリを含む。例えばstreet view (indoor),street view (outdoor),games, sports, driving, activity, tv show, cookingである。
提案するtextvrでは,テキストを認識し,理解し,視覚的コンテキストに関連付け,映像検索タスクに不可欠なテキスト意味情報を決定するための,統一的なクロスモーダルモデルが必要となる。
さらに,既存のデータセットと比較してテキストVRの詳細な分析を行い,テキストベースのビデオ検索タスクのための新しいマルチモーダルビデオ検索ベースラインを設計する。
データセット分析と広範な実験により、TextVRベンチマークは、ビデオと言語コミュニティのための以前のデータセットからの多くの新しい技術的課題と洞察を提供します。
プロジェクトwebサイトとgithubリポジトリは、それぞれhttps://sites.google.com/view/loveucvpr23/guest-trackとhttps://github.com/callsys/textvrで見ることができる。
関連論文リスト
- Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text [46.177941541282756]
我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
論文 参考訳(メタデータ) (2023-11-29T09:13:27Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - TVPR: Text-to-Video Person Retrieval and a New Benchmark [19.554989977778312]
テキスト・ツー・ビデオ・パーソン検索(TVPR)と呼ばれる新しいタスクを提案する。
TVPRNは、人物ビデオの視覚的および運動的表現を融合することにより、映像表現を取得する。
TVPRNはTVPReidデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-07-14T06:34:00Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。