論文の概要: Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining
- arxiv url: http://arxiv.org/abs/2107.14572v1
- Date: Fri, 30 Jul 2021 12:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 15:34:39.462026
- Title: Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining
- Title(参考訳): Product1M: クロスモーダル事前トレーニングによるインスタンスレベル製品検索を弱める
- Authors: Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi
Zhang, Hang Xu, Xiaodan Liang
- Abstract要約: 弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 108.86502855439774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, customer's demands for E-commerce are more diversified, which
introduces more complications to the product retrieval industry. Previous
methods are either subject to single-modal input or perform supervised
image-level product retrieval, thus fail to accommodate real-life scenarios
where enormous weakly annotated multi-modal data are present. In this paper, we
investigate a more realistic setting that aims to perform weakly-supervised
multi-modal instance-level product retrieval among fine-grained product
categories. To promote the study of this challenging task, we contribute
Product1M, one of the largest multi-modal cosmetic datasets for real-world
instance-level retrieval. Notably, Product1M contains over 1 million
image-caption pairs and consists of two sample types, i.e., single-product and
multi-product samples, which encompass a wide variety of cosmetics brands. In
addition to the great diversity, Product1M enjoys several appealing
characteristics including fine-grained categories, complex combinations, and
fuzzy correspondence that well mimic the real-world scenes. Moreover, we
propose a novel model named Cross-modal contrAstive Product Transformer for
instance-level prodUct REtrieval (CAPTURE), that excels in capturing the
potential synergy between multi-modal inputs via a hybrid-stream transformer in
a self-supervised manner.CAPTURE generates discriminative instance features via
masked multi-modal learning as well as cross-modal contrastive pretraining and
it outperforms several SOTA cross-modal baselines. Extensive ablation studies
well demonstrate the effectiveness and the generalization capacity of our
model.
- Abstract(参考訳): 現在、eコマースに対する顧客の要求はより多様化しており、製品検索業界にさらに複雑化をもたらしている。
従来の手法は, 単一モード入力か, 教師付き画像レベルの製品検索を行うかのいずれかであり, 弱い注釈付きマルチモーダルデータが存在する実生活シナリオに対応できない。
本稿では,細粒度製品カテゴリ間のマルチモーダル・インスタンスレベルの製品検索を弱に制御することを目的とした,より現実的な設定について検討する。
この課題の研究を促進するために,実世界のインスタンスレベルの検索のために,最も大規模なマルチモーダル化粧品データセットであるProduct1Mを寄贈する。
注目すべきは、Product1Mには100万枚以上のイメージキャプチャーペアが含まれており、多種類の化粧品ブランドを含む単製品と多製品という2つのサンプルタイプで構成されている。
優れた多様性に加えて、Product1Mには、細かなカテゴリ、複雑な組み合わせ、ファジィ対応など、現実のシーンをうまく模倣するいくつかの魅力的な特徴がある。
さらに, マルチモーダル変換器によるマルチモーダル入力間のシナジーを自己教師付きで捕捉し, マスク付きマルチモーダル学習による識別インスタンス特徴と, クロスモーダルコントラスト事前学習により生成し, 複数SOTAのクロスモーダルベースラインを上回った, ケースレベルのProdUct Retrieval (CAPTURE) のためのクロスモーダルコントラスト製品変換器 (Cross-modal ContrAstive Product Transformer) を提案する。
広範なアブレーション研究により,本モデルの有効性と一般化能が実証された。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval [28.13183873658186]
電子商取引はますますマルチメディア化され、画像やショートビデオ、ライブストリームのプロモーションなど、幅広い領域で商品が展示されている。
広義のシナリオでは、製品内変異が大きく、製品間類似度が高いため、視覚のみの表現は不十分である。
ASRによるマルチモーダル製品表現学習(AMPere)を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:24:10Z) - MESEN: Exploit Multimodal Data to Design Unimodal Human Activity Recognition with Few Labels [11.853566358505434]
MESENはマルチモーダル・エンパワー・ユニモーダル・センシング・フレームワークである。
Mesenは、ラベルのないマルチモーダルデータを利用して、各モーダルに対して効果的なユニモーダル特徴を抽出する。
Mesenは最先端のベースラインよりも大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-04-02T13:54:05Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。