Fugu-MT 論文翻訳(概要): Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval

論文の概要: Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval

arxiv url: http://arxiv.org/abs/2311.07622v2
Date: Wed, 15 Nov 2023 04:13:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 11:20:30.022994
Title: Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval
Title（参考訳）: 推論のように事前トレーニングする: マスクチューニングによりゼロショット合成画像検索が改善
Authors: Junyang Chen, Hanjiang Lai
Abstract要約: 本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
参考スコア（独自算出の注目度）: 17.70430913227593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot composed image retrieval (ZS-CIR), which aims to retrieve a target image based on textual modifications to a reference image without triplet labeling, has gained more and more attention. Current ZS-CIR research mainly relies on two unlabeled pre-trained models: the vision-language model, e.g., CLIP, and the Pic2Word/textual inversion model. However, the pre-trained models and CIR tasks have substantial discrepancies, where the pre-trained models learn the similarities between vision and language but CIR aims to learn the modifications of the image guided by text. In this paper, we introduce a novel unlabeled and pre-trained masked tuning approach to reduce the gap between the pre-trained model and the downstream CIR task. We first reformulate the pre-trained vision-language contrastive learning as the CIR task, where we randomly mask input image patches to generate $\langle$masked image, text, image$\rangle$ triple from an image-text pair. Then, we propose a masked tuning, which uses the text and the masked image to learn the modifications of the original image. With such a simple design, it can learn to capture fine-grained text-guided modifications. Extensive experimental results demonstrate the significant superiority of our approach over the baseline models on three ZS-CIR datasets, including FashionIQ, CIRR, and CIRCO.
Abstract（参考訳）: ゼロショット合成画像検索(zs-cir)は,トリプレットラベリングを必要とせず,参照画像のテキスト修正に基づく対象画像の検索を目的としたものである。現在のZS-CIRの研究は主に、視覚言語モデル(例えばCLIP)とPic2Word/textual inversionモデル(英語版)である。しかし、事前学習されたモデルとcirタスクは、視覚と言語の間の類似性を学ぶが、cirはテキストで導かれた画像の修正を学ぶことを目的としている。本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。そこで入力画像パッチをランダムにマスクして,画像-テキストペアから$\langle$masked image, text, image$\rangle$ tripleを生成する。そこで本研究では,テキストとマスキング画像を用いて原画像の修正を学習するマスキングチューニングを提案する。このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。 FashionIQ, CIRR, CIRCOを含む3つのZS-CIRデータセットのベースラインモデルに対するアプローチの大幅な優位性を示した。

関連論文リスト

Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。 FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2025-03-25T02:51:25Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文参考訳（メタデータ） (2024-09-07T21:52:58Z)
Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。 Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文参考訳（メタデータ） (2024-05-01T15:19:54Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文参考訳（メタデータ） (2023-12-14T13:31:01Z)
Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文参考訳（メタデータ） (2023-12-04T16:22:06Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)
Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。 3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文参考訳（メタデータ） (2023-03-22T15:48:23Z)
Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文参考訳（メタデータ） (2023-02-06T19:40:04Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。