論文の概要: Training and challenging models for text-guided fashion image retrieval
- arxiv url: http://arxiv.org/abs/2204.11004v1
- Date: Sat, 23 Apr 2022 06:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 08:14:24.006799
- Title: Training and challenging models for text-guided fashion image retrieval
- Title(参考訳): テキスト誘導ファッション画像検索のための訓練と挑戦モデル
- Authors: Eric Dodds, Jack Culpepper, Gaurav Srivastava
- Abstract要約: 新たな評価データセットであるChallenging Fashion Queries (CFQ)を導入する。
CFQは、キャプション精度と条件付き画像の類似性の正と負のラベルを持つ相対的なキャプションを含む既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
- 参考スコア(独自算出の注目度): 1.4266272677701561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving relevant images from a catalog based on a query image together
with a modifying caption is a challenging multimodal task that can particularly
benefit domains like apparel shopping, where fine details and subtle variations
may be best expressed through natural language. We introduce a new evaluation
dataset, Challenging Fashion Queries (CFQ), as well as a modeling approach that
achieves state-of-the-art performance on the existing Fashion IQ (FIQ) dataset.
CFQ complements existing benchmarks by including relative captions with
positive and negative labels of caption accuracy and conditional image
similarity, where others provided only positive labels with a combined meaning.
We demonstrate the importance of multimodal pretraining for the task and show
that domain-specific weak supervision based on attribute labels can augment
generic large-scale pretraining. While previous modality fusion mechanisms lose
the benefits of multimodal pretraining, we introduce a residual attention
fusion mechanism that improves performance. We release CFQ and our code to the
research community.
- Abstract(参考訳): クエリ画像と修正キャプションを併用したカタログから関連する画像を取得することは、特にアパレルショッピングのようなドメインに利益をもたらす、困難なマルチモーダルタスクである。
既存のfashion iq (fiq) データセットで最先端のパフォーマンスを実現するモデリング手法とともに,新たな評価データセットである challenge fashion query (cfq) を導入する。
cfqは、字幕の正確さと条件付き画像の類似性を肯定的および否定的ラベルの相対的な字幕を含むことで、既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
従来のモーダリティ融合機構はマルチモーダル事前訓練の利点を損なうが,性能向上のための残留注意融合機構を導入する。
私たちはcfqとコードを研究コミュニティにリリースします。
関連論文リスト
- Improved Few-Shot Image Classification Through Multiple-Choice Questions [1.4432605069307167]
本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。
本手法は, 純視覚エンコーダとゼロショットVQAベースラインの両方で性能を向上し, 共通ショットタスクにおける印象的な性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T03:09:42Z) - ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining [25.680035174334886]
no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-03T06:03:57Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。
M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-26T17:58:39Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。