論文の概要: CoVR: Learning Composed Video Retrieval from Web Video Captions
- arxiv url: http://arxiv.org/abs/2308.14746v1
- Date: Mon, 28 Aug 2023 17:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:44:50.892573
- Title: CoVR: Learning Composed Video Retrieval from Web Video Captions
- Title(参考訳): covr: webビデオキャプションからの合成ビデオ検索の学習
- Authors: Lucas Ventura, Antoine Yang, Cordelia Schmid, G\"ul Varol
- Abstract要約: Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
- 参考スコア(独自算出の注目度): 57.99245753141031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CoIR) has recently gained popularity as a task that
considers both text and image queries together, to search for relevant images
in a database. Most CoIR approaches require manually annotated datasets,
comprising image-text-image triplets, where the text describes a modification
from the query image to the target image. However, manual curation of CoIR
triplets is expensive and prevents scalability. In this work, we instead
propose a scalable automatic dataset creation methodology that generates
triplets given video-caption pairs, while also expanding the scope of the task
to include composed video retrieval (CoVR). To this end, we mine paired videos
with a similar caption from a large database, and leverage a large language
model to generate the corresponding modification text. Applying this
methodology to the extensive WebVid2M collection, we automatically construct
our WebVid-CoVR dataset, resulting in 1.6 million triplets. Moreover, we
introduce a new benchmark for CoVR with a manually annotated evaluation set,
along with baseline results. Our experiments further demonstrate that training
a CoVR model on our dataset effectively transfers to CoIR, leading to improved
state-of-the-art performance in the zero-shot setup on both the CIRR and
FashionIQ benchmarks. Our code, datasets, and models are publicly available at
https://imagine.enpc.fr/~ventural/covr.
- Abstract(参考訳): Composed Image Retrieval (CoIR)は、最近、テキストと画像のクエリを一緒に検討し、データベース内の関連するイメージを検索するタスクとして人気を集めている。
ほとんどのCoIRアプローチでは、クエリイメージからターゲットイメージへの変更をテキストで記述するイメージ-テキスト-イメージトレーレットを含む、手動でアノテートされたデータセットを必要とする。
しかしながら、coirトリプレットの手動キュレーションは高価であり、スケーラビリティを妨げる。
そこで本研究では,ビデオキャプション対のトリプレットを生成するスケーラブルな自動データセット作成手法を提案するとともに,合成ビデオ検索(CoVR)を含むタスクの範囲を拡大する。
この目的のために,大規模なデータベースから類似キャプションとペア動画を抽出し,大きな言語モデルを用いて対応する修正文を生成する。
この方法論をWebVid2Mコレクションに適用することにより、WebVid-CoVRデータセットを自動的に構築し、160万トリップレットを実現します。
さらに,手作業による評価セットを用いたcovrの新しいベンチマークとベースライン結果について紹介する。
さらに,データセット上でのCoVRモデルのトレーニングがCoIRに効果的に移行し,CIRRおよびFashionIQベンチマークのゼロショット設定における最先端性能が向上することを示した。
私たちのコード、データセット、モデルはhttps://imagine.enpc.fr/~ventural/covr.comで公開されています。
関連論文リスト
- A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept
Reranking [38.564888571096866]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
本稿では,TFCIR(Training-free zero-shot Composed Image Retrieval)法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Enhancing Vision-Language Pre-Training with Jointly Learned Questioner
and Dense Captioner [23.45696017024429]
本稿では,大規模VQAおよび高密度キャプションデータセットの自動生成とフィルタリングを行うJADE(Joint QA and DC GEneration)を提案する。
実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-19T15:54:40Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。