論文の概要: Multi-Modal Representation Learning with Self-Adaptive Thresholds for
Commodity Verification
- arxiv url: http://arxiv.org/abs/2208.11064v2
- Date: Wed, 24 Aug 2022 12:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 10:22:39.673504
- Title: Multi-Modal Representation Learning with Self-Adaptive Thresholds for
Commodity Verification
- Title(参考訳): 商品検証のための自己適応閾値を用いたマルチモーダル表現学習
- Authors: Chenchen Han and Heng Jia
- Abstract要約: 電子商取引のシナリオでは、商品は通常、画像とテキストの両方で記述される。
定義上、同一の商品は同一のキー属性を持ち、認知的に消費者と同一である。
本稿では,自己適応しきい値に基づくエンドツーエンドの同一商品検証手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method to identify identical commodities. In
e-commerce scenarios, commodities are usually described by both images and
text. By definition, identical commodities are those that have identical key
attributes and are cognitively identical to consumers. There are two main
challenges: 1) The extraction and fusion of multi-modal representation. 2) The
ability to verify whether two commodities are identical by comparing the
distance between representations with a threshold. To address the above
problems, we propose an end-to-end identical commodity verification method
based on self-adaptive thresholds. We use a dual-stream network to extract
commodity embeddings and threshold embeddings separately and then concatenate
them to obtain commodity representation. Our method is able to obtain different
thresholds according to different commodities while maintaining the
indexability of the entire commodity representation. We experimentally validate
the effectiveness of our multimodal feature fusion and the advantages of
self-adaptive thresholds. Besides, our method achieves an F1 score of 0.8936
and takes the 3rd place on the leaderboard for the second task of the CCKS-2022
Knowledge Graph Evaluation for Digital Commerce Competition. Code and
pretrained models are available at
https://github.com/hanchenchen/CCKS2022-track2-solution.
- Abstract(参考訳): 本稿では,同一商品を識別する手法を提案する。
eコマースのシナリオでは、商品は通常画像とテキストの両方で記述される。
定義上、同一の商品は同一のキー属性を持ち、認知的に消費者と同一である。
主な課題は2つあります
1)マルチモーダル表現の抽出と融合。
2)表現間の距離をしきい値と比較することにより,2つの商品が同一かどうかを検証できる。
上記の問題に対処するために,自己適応しきい値に基づくエンドツーエンドの同一商品検証手法を提案する。
両ストリームネットワークを用いて,商品の埋め込みとしきい値の埋め込みを別々に抽出し,それらを結合して商品表現を得る。
本手法は,商品全体の索引性を維持しつつ,商品ごとに異なるしきい値を得ることができる。
マルチモーダル機能融合の有効性と自己適応閾値の利点を実験的に検証した。
また,本手法はF1スコア0.8936を達成し,CCKS-2022知識グラフコンペティションの第2タスクのリーダーボードで3位となった。
コードと事前トレーニングされたモデルはhttps://github.com/hanchenchen/ccks2022-track2-solutionで入手できる。
関連論文リスト
- JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Large Scale Multimodal Classification Using an Ensemble of Transformer
Models and Co-Attention [2.842794675894731]
本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。
我々は、事前訓練された言語と画像埋め込みを用いて、画像とテキストの関係をモデル化するために、二重注意法を用いる。
論文 参考訳(メタデータ) (2020-11-23T21:22:54Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Online Similarity Learning with Feedback for Invoice Line Item Matching [3.0803859277148535]
大企業におけるP2P(Properure to Pay Process)は、企業運営のための製品やサービスの調達を扱う。
P2Pプロセスを編成するエージェントは、請求書内の製品やサービス記述と購入順に一致する問題に遭遇することが多い。
本稿では, 各種エージェントのフィードバックデータを用いて, この問題を解決するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-01-02T01:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。