論文の概要: A Multimodal Late Fusion Model for E-Commerce Product Classification
- arxiv url: http://arxiv.org/abs/2008.06179v1
- Date: Fri, 14 Aug 2020 03:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:46:38.761049
- Title: A Multimodal Late Fusion Model for E-Commerce Product Classification
- Title(参考訳): eコマース製品分類のためのマルチモーダルレイトフュージョンモデル
- Authors: Ye Bi, Shuo Wang, Zhongrui Fan
- Abstract要約: 本研究では,テキストと画像のモダリティに基づくマルチモーダルレイトフュージョン手法を用いて,楽天上での電子商取引商品の分類を行った。
具体的には、各入力モードに対して、特定の最先端のディープニューラルネットワークを開発し、それらを決定レベルで融合させた。
pa_curisという名前のチームが、最終リーダーボードで0.9144のマクロF1で優勝しました。
- 参考スコア(独自算出の注目度): 7.463657960984954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cataloging of product listings is a fundamental problem for most
e-commerce platforms. Despite promising results obtained by unimodal-based
methods, it can be expected that their performance can be further boosted by
the consideration of multimodal product information. In this study, we
investigated a multimodal late fusion approach based on text and image
modalities to categorize e-commerce products on Rakuten. Specifically, we
developed modal specific state-of-the-art deep neural networks for each input
modal, and then fused them at the decision level. Experimental results on
Multimodal Product Classification Task of SIGIR 2020 E-Commerce Workshop Data
Challenge demonstrate the superiority and effectiveness of our proposed method
compared with unimodal and other multimodal methods. Our team named pa_curis
won the 1st place with a macro-F1 of 0.9144 on the final leaderboard.
- Abstract(参考訳): 製品リストのカタログ化は、ほとんどのeコマースプラットフォームにとって根本的な問題である。
単調な手法で得られた有望な結果にもかかわらず、多モーダル製品情報を考慮することにより、さらなる性能向上が期待できる。
本研究では,テキストと画像のモダリティに基づくマルチモーダルレイトフュージョン手法を用いて,楽天上でのeコマース商品の分類を行った。
具体的には、各入力モーダルに対してモーダル特有のディープニューラルネットワークを開発し、それを決定レベルで融合させた。
sigir 2020 e-commerce workshop data challengeにおけるマルチモーダル製品分類タスクの実験結果は、ユニモーダルや他のマルチモーダル手法と比較して提案手法の優劣と有効性を示している。
pa_curisという名前のチームが、最終リーダーボードで0.9144のマクロF1で優勝しました。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。
このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。
我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding [67.26334044239161]
MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。
Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。
得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-15T17:56:09Z) - End-to-end multi-modal product matching in fashion e-commerce [0.6047429555885261]
業界環境では,堅牢なマルチモーダル製品マッチングシステムを提案する。
人間のループプロセスとモデルに基づく予測が組み合わさって、ほぼ完全な精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-03-18T09:12:16Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Multi-Modal Attribute Extraction for E-Commerce [4.626261940793027]
モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
論文 参考訳(メタデータ) (2022-03-07T14:48:44Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。