論文の概要: Supervised Contrastive Learning for Product Matching
- arxiv url: http://arxiv.org/abs/2202.02098v1
- Date: Fri, 4 Feb 2022 12:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 15:33:55.627151
- Title: Supervised Contrastive Learning for Product Matching
- Title(参考訳): プロダクトマッチングのための教師付きコントラスト学習
- Authors: Ralph Peeters, Christian Bizer
- Abstract要約: このポスターは、eコマースにおける製品マッチングのタスクに対照的な学習を適用する最初の作品です。
教師付きコントラスト学習技術を用いてトランスフォーマーエンコーダを事前学習し、その後、マッチング問題に対して微調整する。
本稿では,トレーニングデータに製品識別器を含まないユースケースに対して,コントラスト学習を適用可能なソース対応サンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has seen increasing success in the fields of computer
vision and information retrieval in recent years. This poster is the first work
that applies contrastive learning to the task of product matching in e-commerce
using product offers from different e-shops. More specifically, we employ a
supervised contrastive learning technique to pre-train a Transformer encoder
which is afterwards fine-tuned for the matching problem using pair-wise
training data. We further propose a source-aware sampling strategy which
enables contrastive learning to be applied for use cases in which the training
data does not contain product idenifiers. We show that applying supervised
contrastive pre-training in combination with source-aware sampling
significantly improves the state-of-the art performance on several widely used
benchmark datasets: For Abt-Buy, we reach an F1 of 94.29 (+3.24 compared to the
previous state-of-the-art), for Amazon-Google 79.28 (+ 3.7). For WDC Computers
datasets, we reach improvements between +0.8 and +8.84 F1 depending on the
training set size. Further experiments with data augmentation and
self-supervised contrastive pre-training show, that the former can be helpful
for smaller training sets while the latter leads to a significant decline in
performance due to inherent label-noise. We thus conclude that contrastive
pre-training has a high potential for product matching use cases in which
explicit supervision is available.
- Abstract(参考訳): 近年,コンピュータビジョンと情報検索の分野において,コントラスト学習が成功を収めている。
このポスターは、異なるeショップからの製品提供を使って、eコマースにおける製品マッチングのタスクに対比学習を適用する最初の作品です。
具体的には、教師付きコントラスト学習技術を用いてトランスフォーマーエンコーダを事前学習し、その後ペアワイズトレーニングデータを用いてマッチング問題を微調整する。
さらに,トレーニングデータに製品識別器を含まないユースケースに対して,コントラスト学習を適用可能なソース対応サンプリング戦略を提案する。
Abt-Buyでは、Amazon-Google 79.28(+ 3.7)に対して94.29(+3.24)のF1に達する。
WDCコンピュータのデータセットでは、トレーニングセットのサイズに応じて+0.8と+8.84 F1の改善点に達する。
データ拡張と自己教師付きコントラストプレトレーニングによるさらなる実験は、前者はより小さなトレーニングセットに役立ち、後者は固有のラベルノイズによってパフォーマンスが著しく低下することを示している。
したがって, 対照的な事前学習は, 明示的な監督が可能である製品マッチングのユースケースにおいて高い可能性を秘めている。
関連論文リスト
- Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Training with Product Digital Twins for AutoRetail Checkout [28.823850493539293]
デジタル双生児(DtTrain)を用いたトレーニングデータ最適化フレームワークを提案する。
これらのデジタルツインは製品ラベルを継承し、拡張されるとデジタルツイントレーニングセット(DTセット)を形成する。
本実験では,既存のデータセット合成手法で作成したトレーニングセットを,精度の点で性能的に優れることを示す。
論文 参考訳(メタデータ) (2023-08-18T17:58:10Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - ColloSSL: Collaborative Self-Supervised Learning for Human Activity
Recognition [9.652822438412903]
堅牢なヒューマンアクティビティ認識モデル(HAR)のトレーニングにおける大きなボトルネックは、大規模ラベル付きセンサーデータセットの必要性である。
大量のセンサデータをラベル付けすることは高価な作業であるため、教師なしおよび半教師なしの学習技術が出現している。
複数のデバイスから収集されたラベルのないデータを活用するコラボレーティブ・セルフスーパーバイズ・ラーニング(ColloSSL)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T21:05:05Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Supervision Accelerates Pre-training in Contrastive Semi-Supervised
Learning of Visual Representations [12.755943669814236]
そこで我々は,SNCEtという半教師付きロスを提案する。これは,自己教師型インスタンス単位のプリテキストタスクに加えて,異なるクラスの例を区別することを目的としている。
ImageNetでは、SNCEtは従来のコントラッシブアプローチの半教師付き学習精度と一致させることができる。
私たちの主な洞察は、事前トレーニング中に少量のラベル付きデータを利用するだけでなく、微調整中にも重要な信号を提供するということです。
論文 参考訳(メタデータ) (2020-06-18T18:44:13Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。