論文の概要: GSID: Generative Semantic Indexing for E-Commerce Product Understanding
- arxiv url: http://arxiv.org/abs/2509.23860v1
- Date: Sun, 28 Sep 2025 12:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.489761
- Title: GSID: Generative Semantic Indexing for E-Commerce Product Understanding
- Title(参考訳): GSID:Eコマース製品理解のためのジェネレーティブセマンティックインデックス作成
- Authors: Haiyang Yang, Qinye Xie, Qingheng Zhang, Liyu Chen, Huike Zou, Chengbao Lian, Shuguang Han, Fei Huang, Jufeng Chen, Bo Zheng,
- Abstract要約: textbfGenerative textbfSemantic textbfIntextbfDexings (GSID)を提案する。
GSID は,(1) ドメイン内のセマンティック埋め込みを学習するための非構造化製品メタデータの事前学習,(2) 下流アプリケーションに適したより効果的なセマンティックコードの生成,という2つの重要なコンポーネントから構成される。
実際のeコマースプラットフォーム上でのデプロイに成功し、製品理解やその他の下流タスクにおいて有望な成果を上げています。
- 参考スコア(独自算出の注目度): 32.89899469298562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured representation of product information is a major bottleneck for the efficiency of e-commerce platforms, especially in second-hand ecommerce platforms. Currently, most product information are organized based on manually curated product categories and attributes, which often fail to adequately cover long-tail products and do not align well with buyer preference. To address these problems, we propose \textbf{G}enerative \textbf{S}emantic \textbf{I}n\textbf{D}exings (GSID), a data-driven approach to generate product structured representations. GSID consists of two key components: (1) Pre-training on unstructured product metadata to learn in-domain semantic embeddings, and (2) Generating more effective semantic codes tailored for downstream product-centric applications. Extensive experiments are conducted to validate the effectiveness of GSID, and it has been successfully deployed on the real-world e-commerce platform, achieving promising results on product understanding and other downstream tasks.
- Abstract(参考訳): 製品情報の構造化された表現は、特に中古のeコマースプラットフォームにおいて、電子商取引プラットフォームの効率の大きなボトルネックとなっている。
現在、ほとんどの製品情報は手作業でキュレートされた製品カテゴリと属性に基づいて整理されており、長い商品を適切にカバーすることができず、購入者の好みとうまく一致しないことが多い。
これらの問題に対処するため、積構造表現を生成するためのデータ駆動アプローチである \textbf{G}enerative \textbf{S}emantic \textbf{I}n\textbf{D}exings (GSID) を提案する。
GSIDは、(1)ドメイン内のセマンティック埋め込みを学習するための構造化されていない製品メタデータの事前トレーニング、(2)下流製品中心のアプリケーションに適したより効果的なセマンティックコードを生成する。
GSIDの有効性を検証するために大規模な実験を行い、実世界のeコマースプラットフォームに展開し、製品理解やその他の下流業務において有望な成果を上げた。
関連論文リスト
- FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets [64.51403245281547]
FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
論文 参考訳(メタデータ) (2025-09-25T08:44:22Z) - EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - eC-Tab2Text: Aspect-Based Text Generation from e-Commerce Product Tables [6.384763560610077]
我々はeコマースの複雑さを捉えるために設計された新しいデータセットeC-Tab2Textを紹介する。
製品表からテキストを生成することに注力し、LCMが高品質で属性固有の製品レビューを作成できるようにする。
その結果,文脈的に正確なレビューを生成する上で,大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-02-20T18:41:48Z) - Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search [9.381220988816219]
本稿では,大規模パーソナライズされたEコマース検索システムのための効率的な階層符号化復号生成検索手法(Hi-Gen)を提案する。
まず、メトリック学習を用いて表現学習モデルを構築し、アイテムの識別的特徴表現を学習する。
そこで本研究では,カテゴリ誘導型階層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T06:05:35Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - Automatic Controllable Product Copywriting for E-Commerce [58.97059802658354]
我々は、JD.comのeコマースレコメンデーションプラットフォームに、Eコマースのプレフィックスベースのコントロール可能なコピーライティング生成をデプロイする。
提案するECCCGの有効性を検証する実験を行った。
本稿では,リアルタイムのJD.com電子商取引レコメンデーションプラットフォームに,ECCCGと連携するデプロイアーキテクチャを導入する。
論文 参考訳(メタデータ) (2022-06-21T04:18:52Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。