論文の概要: Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining
- arxiv url: http://arxiv.org/abs/2107.14572v1
- Date: Fri, 30 Jul 2021 12:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 15:34:39.462026
- Title: Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining
- Title(参考訳): Product1M: クロスモーダル事前トレーニングによるインスタンスレベル製品検索を弱める
- Authors: Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi
Zhang, Hang Xu, Xiaodan Liang
- Abstract要約: 弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 108.86502855439774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, customer's demands for E-commerce are more diversified, which
introduces more complications to the product retrieval industry. Previous
methods are either subject to single-modal input or perform supervised
image-level product retrieval, thus fail to accommodate real-life scenarios
where enormous weakly annotated multi-modal data are present. In this paper, we
investigate a more realistic setting that aims to perform weakly-supervised
multi-modal instance-level product retrieval among fine-grained product
categories. To promote the study of this challenging task, we contribute
Product1M, one of the largest multi-modal cosmetic datasets for real-world
instance-level retrieval. Notably, Product1M contains over 1 million
image-caption pairs and consists of two sample types, i.e., single-product and
multi-product samples, which encompass a wide variety of cosmetics brands. In
addition to the great diversity, Product1M enjoys several appealing
characteristics including fine-grained categories, complex combinations, and
fuzzy correspondence that well mimic the real-world scenes. Moreover, we
propose a novel model named Cross-modal contrAstive Product Transformer for
instance-level prodUct REtrieval (CAPTURE), that excels in capturing the
potential synergy between multi-modal inputs via a hybrid-stream transformer in
a self-supervised manner.CAPTURE generates discriminative instance features via
masked multi-modal learning as well as cross-modal contrastive pretraining and
it outperforms several SOTA cross-modal baselines. Extensive ablation studies
well demonstrate the effectiveness and the generalization capacity of our
model.
- Abstract(参考訳): 現在、eコマースに対する顧客の要求はより多様化しており、製品検索業界にさらに複雑化をもたらしている。
従来の手法は, 単一モード入力か, 教師付き画像レベルの製品検索を行うかのいずれかであり, 弱い注釈付きマルチモーダルデータが存在する実生活シナリオに対応できない。
本稿では,細粒度製品カテゴリ間のマルチモーダル・インスタンスレベルの製品検索を弱に制御することを目的とした,より現実的な設定について検討する。
この課題の研究を促進するために,実世界のインスタンスレベルの検索のために,最も大規模なマルチモーダル化粧品データセットであるProduct1Mを寄贈する。
注目すべきは、Product1Mには100万枚以上のイメージキャプチャーペアが含まれており、多種類の化粧品ブランドを含む単製品と多製品という2つのサンプルタイプで構成されている。
優れた多様性に加えて、Product1Mには、細かなカテゴリ、複雑な組み合わせ、ファジィ対応など、現実のシーンをうまく模倣するいくつかの魅力的な特徴がある。
さらに, マルチモーダル変換器によるマルチモーダル入力間のシナジーを自己教師付きで捕捉し, マスク付きマルチモーダル学習による識別インスタンス特徴と, クロスモーダルコントラスト事前学習により生成し, 複数SOTAのクロスモーダルベースラインを上回った, ケースレベルのProdUct Retrieval (CAPTURE) のためのクロスモーダルコントラスト製品変換器 (Cross-modal ContrAstive Product Transformer) を提案する。
広範なアブレーション研究により,本モデルの有効性と一般化能が実証された。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - A Multimodal Late Fusion Model for E-Commerce Product Classification [7.463657960984954]
本研究では,テキストと画像のモダリティに基づくマルチモーダルレイトフュージョン手法を用いて,楽天上での電子商取引商品の分類を行った。
具体的には、各入力モードに対して、特定の最先端のディープニューラルネットワークを開発し、それらを決定レベルで融合させた。
pa_curisという名前のチームが、最終リーダーボードで0.9144のマクロF1で優勝しました。
論文 参考訳(メタデータ) (2020-08-14T03:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。