Fugu-MT 論文翻訳(概要): CoVR: Learning Composed Video Retrieval from Web Video Captions

論文の概要: CoVR: Learning Composed Video Retrieval from Web Video Captions

arxiv url: http://arxiv.org/abs/2308.14746v1
Date: Mon, 28 Aug 2023 17:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 12:44:50.892573
Title: CoVR: Learning Composed Video Retrieval from Web Video Captions
Title（参考訳）: covr: webビデオキャプションからの合成ビデオ検索の学習
Authors: Lucas Ventura, Antoine Yang, Cordelia Schmid, G\"ul Varol
Abstract要約: Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
参考スコア（独自算出の注目度）: 57.99245753141031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Composed Image Retrieval (CoIR) has recently gained popularity as a task that considers both text and image queries together, to search for relevant images in a database. Most CoIR approaches require manually annotated datasets, comprising image-text-image triplets, where the text describes a modification from the query image to the target image. However, manual curation of CoIR triplets is expensive and prevents scalability. In this work, we instead propose a scalable automatic dataset creation methodology that generates triplets given video-caption pairs, while also expanding the scope of the task to include composed video retrieval (CoVR). To this end, we mine paired videos with a similar caption from a large database, and leverage a large language model to generate the corresponding modification text. Applying this methodology to the extensive WebVid2M collection, we automatically construct our WebVid-CoVR dataset, resulting in 1.6 million triplets. Moreover, we introduce a new benchmark for CoVR with a manually annotated evaluation set, along with baseline results. Our experiments further demonstrate that training a CoVR model on our dataset effectively transfers to CoIR, leading to improved state-of-the-art performance in the zero-shot setup on both the CIRR and FashionIQ benchmarks. Our code, datasets, and models are publicly available at https://imagine.enpc.fr/~ventural/covr.
Abstract（参考訳）: Composed Image Retrieval (CoIR)は、最近、テキストと画像のクエリを一緒に検討し、データベース内の関連するイメージを検索するタスクとして人気を集めている。ほとんどのCoIRアプローチでは、クエリイメージからターゲットイメージへの変更をテキストで記述するイメージ-テキスト-イメージトレーレットを含む、手動でアノテートされたデータセットを必要とする。しかしながら、coirトリプレットの手動キュレーションは高価であり、スケーラビリティを妨げる。そこで本研究では,ビデオキャプション対のトリプレットを生成するスケーラブルな自動データセット作成手法を提案するとともに,合成ビデオ検索(CoVR)を含むタスクの範囲を拡大する。この目的のために,大規模なデータベースから類似キャプションとペア動画を抽出し,大きな言語モデルを用いて対応する修正文を生成する。この方法論をWebVid2Mコレクションに適用することにより、WebVid-CoVRデータセットを自動的に構築し、160万トリップレットを実現します。さらに,手作業による評価セットを用いたcovrの新しいベンチマークとベースライン結果について紹介する。さらに,データセット上でのCoVRモデルのトレーニングがCoIRに効果的に移行し,CIRRおよびFashionIQベンチマークのゼロショット設定における最先端性能が向上することを示した。私たちのコード、データセット、モデルはhttps://imagine.enpc.fr/~ventural/covr.comで公開されています。

関連論文リスト

Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval [19.520776313567737]
Composed Image Retrieval (CIR)は、マルチモーダル(image+text)クエリを使ってターゲット画像を取得することを目的としている。完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに,自動三重項生成のためのスケーラブルパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-08T13:24:05Z)
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文参考訳（メタデータ） (2023-12-14T13:31:01Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文参考訳（メタデータ） (2023-03-16T16:02:24Z)
Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文参考訳（メタデータ） (2023-02-06T19:40:04Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。