論文の概要: Cross-Platform E-Commerce Product Categorization and Recategorization: A Multimodal Hierarchical Classification Approach
- arxiv url: http://arxiv.org/abs/2508.20013v1
- Date: Wed, 27 Aug 2025 16:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.696327
- Title: Cross-Platform E-Commerce Product Categorization and Recategorization: A Multimodal Hierarchical Classification Approach
- Title(参考訳): クロスプラットフォームEコマース製品分類と再分類:マルチモーダル階層的分類アプローチ
- Authors: Lotte Gross, Rebecca Walter, Nicole Zoppi, Adrien Justus, Alessandro Gambetti, Qiwei Han, Maximilian Kaiser,
- Abstract要約: 電子商取引商品分類のためのマルチモーダル階層分類フレームワークを開発し,展開する。
階層型アーキテクチャにおける早期・後期・注目に基づく融合戦略について検討する。
以上の結果から,CLIPをベースとしたレイトフュージョン戦略で組み合わされたCLIPは,最も階層的なF1を達成できた。
- 参考スコア(独自算出の注目度): 34.02731156096853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses critical industrial challenges in e-commerce product categorization, namely platform heterogeneity and the structural limitations of existing taxonomies, by developing and deploying a multimodal hierarchical classification framework. Using a dataset of 271,700 products from 40 international fashion e-commerce platforms, we integrate textual features (RoBERTa), visual features (ViT), and joint vision--language representations (CLIP). We investigate fusion strategies, including early, late, and attention-based fusion within a hierarchical architecture enhanced by dynamic masking to ensure taxonomic consistency. Results show that CLIP embeddings combined via an MLP-based late-fusion strategy achieve the highest hierarchical F1 (98.59\%), outperforming unimodal baselines. To address shallow or inconsistent categories, we further introduce a self-supervised ``product recategorization'' pipeline using SimCLR, UMAP, and cascade clustering, which discovered new, fine-grained categories (e.g., subtypes of ``Shoes'') with cluster purities above 86\%. Cross-platform experiments reveal a deployment-relevant trade-off: complex late-fusion methods maximize accuracy with diverse training data, while simpler early-fusion methods generalize more effectively to unseen platforms. Finally, we demonstrate the framework's industrial scalability through deployment in EURWEB's commercial transaction intelligence platform via a two-stage inference pipeline, combining a lightweight RoBERTa stage with a GPU--accelerated multimodal stage to balance cost and accuracy.
- Abstract(参考訳): 本研究は,マルチモーダル階層型分類フレームワークの開発と展開により,Eコマース製品分類における重要な産業課題,すなわちプラットフォームの不均一性と既存の分類体系の構造的制約について論じる。
40の国際ファッションeコマースプラットフォームから271,700の製品データセットを使用して、テキスト機能(RoBERTa)、ビジュアル機能(ViT)、共同ビジョン言語表現(CLIP)を統合する。
動的マスキングによって強化された階層構造内の早期・後期・注意に基づく融合戦略について検討し,分類学的整合性を確保する。
以上の結果から,MLPをベースとした遅延核融合法によりCLIPの埋め込みは最も高い階層的F1 (98.59\%) を達成し,非経時的ベースラインを上回った。
さらに,SimCLR, UMAP, カスケードクラスタリングを用いて, クラスタ純度が86\%を超える新たな細粒度カテゴリ (例えば ``Shoes'' のサブタイプ) を発見した。
複雑なレイトフュージョン手法は、多様なトレーニングデータで精度を最大化し、単純なアーリーフュージョン手法は、見当たらないプラットフォームにより効果的に一般化する。
最後に、EURWEBの商用トランザクションインテリジェンスプラットフォームに2段階の推論パイプラインを介し、軽量なRoBERTaステージとGPUアクセラレーションされたマルチモーダルステージを組み合わせて、コストと精度のバランスをとることにより、フレームワークの産業的スケーラビリティを実証する。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - DiffusionCom: Structure-Aware Multimodal Diffusion Model for Multimodal Knowledge Graph Completion [15.898786167134997]
マルチモーダル知識グラフ補完(DiffusionCom)のための構造認識型マルチモーダル拡散モデルを提案する。
DiffusionComはジェネレータの生成的損失と識別的損失の両方を用いて訓練され、特徴抽出器は識別的損失にのみ最適化される。
FB15k-237-IMGデータセットとWN18-IMGデータセットの実験は、DiffusionComが最先端モデルより優れていることを示した。
論文 参考訳(メタデータ) (2025-04-09T02:50:37Z) - Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification [19.80724112056431]
マルチモーダル分類のための分類組込み遷移LLM非依存フレームワークを提案する。
MEP-3Mデータセットを用いた評価では,従来のLCM構造と比較して,大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2025-01-12T14:43:06Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。