論文の概要: V$^2$L: Leveraging Vision and Vision-language Models into Large-scale
Product Retrieval
- arxiv url: http://arxiv.org/abs/2207.12994v1
- Date: Tue, 26 Jul 2022 15:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:59:27.938283
- Title: V$^2$L: Leveraging Vision and Vision-language Models into Large-scale
Product Retrieval
- Title(参考訳): v$^2$l: ビジョンとビジョン言語モデルを大規模製品検索に活用する
- Authors: Wenhao Wang, Yifan Sun, Zongxin Yang, Yi Yang
- Abstract要約: 本稿では,eBay eProduct Visual Search Challenge (FGVC9)における第1位ソリューションについて紹介する。
視覚モデルと視覚言語モデルを組み合わせることで、その相補性から特別なメリットが得られ、私たちの優位性にとって重要な要素であることが示される。
- 参考スコア(独自算出の注目度): 32.28772179053869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product retrieval is of great importance in the ecommerce domain. This paper
introduces our 1st-place solution in eBay eProduct Visual Search Challenge
(FGVC9), which is featured for an ensemble of about 20 models from vision
models and vision-language models. While model ensemble is common, we show that
combining the vision models and vision-language models brings particular
benefits from their complementarity and is a key factor to our superiority.
Specifically, for the vision models, we use a two-stage training pipeline which
first learns from the coarse labels provided in the training set and then
conducts fine-grained self-supervised training, yielding a coarse-to-fine
metric learning manner. For the vision-language models, we use the textual
description of the training image as the supervision signals for fine-tuning
the image-encoder (feature extractor). With these designs, our solution
achieves 0.7623 MAR@10, ranking the first place among all the competitors. The
code is available at: \href{https://github.com/WangWenhao0716/V2L}{V$^2$L}.
- Abstract(参考訳): 商品検索はeコマース分野で非常に重要である。
本稿では,ebay eproduct visual search challenge (fgvc9) において,視覚モデルと視覚言語モデルから約20モデルを対象とした1位ソリューションを提案する。
モデルアンサンブルは一般的であるが、視覚モデルと視覚言語モデルの組み合わせは、その相補性から特別な利益をもたらし、我々の優位の重要な要因であることを示している。
具体的には,2段階のトレーニングパイプラインを用いて,まずトレーニングセットで提供される粗いラベルから学習し,次いで細粒度の自己教師付きトレーニングを行い,粗粒度から細粒度までのメトリック学習を行う。
視覚言語モデルでは,画像エンコーダ(機能抽出器)を微調整するための教師信号として,トレーニング画像のテキスト記述を用いる。
これらの設計により、当社のソリューションは0.7623 MAR@10を達成する。
コードは \href{https://github.com/wangwenhao0716/v2l}{v$^2$l} で入手できる。
関連論文リスト
- ViTamin: Designing Scalable Vision Models in the Vision-Language Era [26.878662961209997]
Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-04-02T17:40:29Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks [27.450456238980433]
我々は新しい基礎モデル X-FM (X-Foundation Model) を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
X-FMは既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解のための既存の基礎モデルに匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T15:03:05Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。