論文の概要: EPM-RL: Reinforcement Learning for On-Premise Product Mapping in E-Commerce
- arxiv url: http://arxiv.org/abs/2604.23993v1
- Date: Mon, 27 Apr 2026 03:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.716019
- Title: EPM-RL: Reinforcement Learning for On-Premise Product Mapping in E-Commerce
- Title(参考訳): EPM-RL:eコマースにおけるオンプレミス製品マッピングのための強化学習
- Authors: Minhyeong Yu, Wonduk Seo,
- Abstract要約: EPM-RLは,効率的なオンプレミスeコマース製品マッピングモデルを構築するための強化学習ベースのフレームワークである。
私たちの中心となる考え方は、高価なエージェント推論をトレーニング可能な社内モデルに蒸留することです。
予備的な結果は、EPM-RLがPEFTのみのトレーニングよりも一貫して改善し、商用APIベースのベースラインよりも高品質なトレードオフを提供することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Product mapping, the task of deciding whether two e-commerce listings refer to the same product, is a core problem for price monitoring and channel visibility. In real marketplaces, however, sellers frequently inject promotional keywords, platform-specific tags, and bundle descriptions into titles, causing the same product to appear under many different names. Recent LLM-based and multi-agent frameworks improve robustness and interpretability on such hard cases, but they often rely on expensive external APIs, repeated retrieval, and complex inference-time orchestration, making large-scale deployment costly and difficult in privacy-sensitive enterprise settings. To address these issues, we present EPM-RL, a reinforcement-learning-based framework for building an accurate and efficient on-premise e-commerce product mapping model. Our central idea is to distill high-cost agentic reasoning into a trainable in-house model. Starting from a curated set of product pairs with LLM-generated rationales and human verification, we first perform parameter-efficient fine-tuning (PEFT) on a small student model using structured reasoning outputs. We then further optimize the model with Reinforcement Learning (RL) using an agent-based reward that jointly evaluates output-format compliance, label correctness, reasoning--preference scores from specially designed judge models. Preliminary results show that EPM-RL consistently improves over PEFT-only training and offers a stronger quality--cost trade-off than commercial API-based baselines, while enabling private deployment and lower operational cost. These findings suggest that reinforcement learning can turn product mapping from a high-latency agentic pipeline into a scalable, inspectable, and production-ready in-house system.
- Abstract(参考訳): 2つのeコマースリストが同じ製品を指すかどうかを判断するタスクである製品マッピングは、価格監視とチャネルの可視性にとって、中核的な問題である。
しかし、実際のマーケットプレースでは、売り手はしばしばプロモーションキーワード、プラットフォーム固有のタグ、バンドル記述をタイトルに注入し、同じ製品が多くの異なる名前で登場する。
最近のLLMベースのマルチエージェントフレームワークは、このような難しいケースに対する堅牢性と解釈性を向上しているが、しばしば高価な外部API、繰り返し検索、複雑な推論時間オーケストレーションに依存しており、プライバシに敏感なエンタープライズ環境で大規模なデプロイメントをコストと困難にしている。
これらの課題に対処するため,EPM-RLを提案する。
私たちの中心となる考え方は、高価なエージェント推論をトレーニング可能な社内モデルに蒸留することです。
LLM生成論理と人間の検証による製品ペアのキュレートセットから始め、構造化推論出力を用いて小学生モデル上でパラメータ効率の微調整(PEFT)を行う。
さらに、特別に設計された判断モデルから出力形式コンプライアンス、ラベルの正しさ、推論-参照スコアを共同評価するエージェントベースの報酬を用いて、強化学習(RL)を用いてモデルをさらに最適化する。
予備的な結果は、EPM-RLがPEFTのみのトレーニングよりも一貫して改善し、商用APIベースのベースラインよりも高品質なトレードオフを提供すると同時に、プライベートデプロイメントと運用コストの低減を実現していることを示している。
これらの結果から,強化学習は高遅延エージェントパイプラインからの製品マッピングを,スケーラブルで検査可能な,実運用対応の社内システムに転換する可能性が示唆された。
関連論文リスト
- TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。
中国最大のeコマースプラットフォームに配備されている。
論文 参考訳(メタデータ) (2025-11-17T20:16:52Z) - E-CARE: An Efficient LLM-based Commonsense-Augmented Framework for E-Commerce [26.230331478424517]
電子商取引業務における効率的なコモンセンス強化勧告エンハンサー(E-CARE)を提案する。
推論中、E-CAREで拡張されたモデルは、クエリ毎に1つのLSMフォワードパスでコモンセンス推論にアクセスすることができる。
2つの下流タスクの実験では、精度が最大12.1%向上した。
論文 参考訳(メタデータ) (2025-11-06T05:57:48Z) - Efficient Learning for Product Attributes with Compact Multimodal Models [2.07180164747172]
電子商取引における画像ベースの製品予測は多くのアプリケーションにおいて重要な課題である。
本稿では,ラベル付き製品リストを利用するラベル効率の高い半教師付き微調整戦略について検討する。
実験により、DPOトレーニングによる精度はラベルのないデータにより向上し、ラベルのないサンプルの大きなプールを効果的に活用してパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2025-07-25T21:12:11Z) - LREF: A Novel LLM-based Relevance Framework for E-commerce [14.217396055372053]
本稿では,eコマース検索の妥当性を高めることを目的とした,LREF(LLM-based Relevance Framework)と呼ばれる新しいフレームワークを提案する。
大規模な実世界のデータセットのオフライン実験やオンラインA/Bテストを通じて,フレームワークの性能を評価する。
このモデルは有名なeコマースアプリケーションにデプロイされ、かなりの商業的利益をもたらした。
論文 参考訳(メタデータ) (2025-03-12T10:10:30Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。