論文の概要: CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short
Video Search Scenarios
- arxiv url: http://arxiv.org/abs/2401.10475v2
- Date: Thu, 25 Jan 2024 06:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:58:56.344398
- Title: CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short
Video Search Scenarios
- Title(参考訳): cbvs - 実世界のショートビデオ検索シナリオのための大規模中国の画像テキストベンチマーク
- Authors: Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo,
Cihang Jin, Jin Ma
- Abstract要約: 大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
われわれは,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバレッジ・テキスト・ベンチマークを構築した。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
- 参考スコア(独自算出の注目度): 15.058793892803008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models pre-trained on large-scale image-text datasets have
shown superior performance in downstream tasks such as image retrieval. Most of
the images for pre-training are presented in the form of open domain
common-sense visual elements. Differently, video covers in short video search
scenarios are presented as user-originated contents that provide important
visual summaries of videos. In addition, a portion of the video covers come
with manually designed cover texts that provide semantic complements. In order
to fill in the gaps in short video cover data, we establish the first
large-scale cover-text benchmark for Chinese short video search scenarios.
Specifically, we release two large-scale datasets CBVS-5M/10M to provide short
video covers, and the manual fine-labeling dataset CBVS-20K to provide real
user queries, which serves as an image-text benchmark test in the Chinese short
video search field. To integrate the semantics of cover text in the case of
modality missing, we propose UniCLIP where cover texts play a guiding role
during training, however are not relied upon by inference. Extensive evaluation
on CBVS-20K demonstrates the excellent performance of our proposal. UniCLIP has
been deployed to Tencent's online video search systems with hundreds of
millions of visits and achieved significant gains. The dataset and code are
available at https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP.
- Abstract(参考訳): 大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
事前学習用の画像のほとんどは、オープンドメインの常識的な視覚要素の形で提示される。
異なるのは、短いビデオ検索シナリオにおけるビデオカバーは、ビデオの重要なビジュアル要約を提供するユーザーによるコンテンツとして提示される。
さらに、ビデオのカバーの一部には、セマンティック補完を提供するカバーテキストが手作業でデザインされている。
ショートビデオのカバーデータにおけるギャップを埋めるため,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバーテキストベンチマークを構築した。
具体的には,ショートビデオカバーを提供するために2つの大規模データセット cbvs-5m/10m と,中国のショートビデオ検索分野におけるイメージテキストベンチマークテストとして機能する実ユーザクエリを提供する手作業用データセット cbvs-20k をリリースする。
モダリティが欠如している場合のカバーテキストの意味論を統合するために、トレーニング中にカバーテキストが指導的役割を果たすUniCLIPを提案するが、推論には依存しない。
CBVS-20Kの大規模評価は,提案手法の優れた性能を示す。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
データセットとコードはhttps://github.com/QQBrowserVideoSearch/CBVS-UniCLIPで公開されている。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。