論文の概要: A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance
- arxiv url: http://arxiv.org/abs/2510.21671v1
- Date: Fri, 24 Oct 2025 17:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.445778
- Title: A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance
- Title(参考訳): 多言語Eコマース製品検索におけるデータ中心的アプローチ:クエリカテゴリとクエリ項目関連を事例として
- Authors: Yabo Yin, Yang Xi, Jialong Wang, Shanqi Wang, Jiateng Hu,
- Abstract要約: 複数言語によるeコマース検索は、言語間で深刻なデータ不均衡に悩まされている。
2つのコアタスクのパフォーマンスを向上させるために,実用的で,アーキテクチャに依存しない,データ中心のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.017203385311908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual e-commerce search suffers from severe data imbalance across languages, label noise, and limited supervision for low-resource languages--challenges that impede the cross-lingual generalization of relevance models despite the strong capabilities of large language models (LLMs). In this work, we present a practical, architecture-agnostic, data-centric framework to enhance performance on two core tasks: Query-Category (QC) relevance (matching queries to product categories) and Query-Item (QI) relevance (matching queries to product titles). Rather than altering the model, we redesign the training data through three complementary strategies: (1) translation-based augmentation to synthesize examples for languages absent in training, (2) semantic negative sampling to generate hard negatives and mitigate class imbalance, and (3) self-validation filtering to detect and remove likely mislabeled instances. Evaluated on the CIKM AnalytiCup 2025 dataset, our approach consistently yields substantial F1 score improvements over strong LLM baselines, achieving competitive results in the official competition. Our findings demonstrate that systematic data engineering can be as impactful as--and often more deployable than--complex model modifications, offering actionable guidance for building robust multilingual search systems in the real-world e-commerce settings.
- Abstract(参考訳): マルチリンガルなeコマース検索は、言語間の深刻なデータ不均衡、ラベルノイズ、低リソース言語に対する限定的な監督に悩まされており、大きな言語モデル(LLM)の強い能力にもかかわらず、関連モデルの言語間一般化を妨げている。
本稿では,QC(Query-Category)とQI(Query-Item)の2つのコアタスクのパフォーマンス向上を目的とした,実用的でアーキテクチャに依存しないデータ中心のフレームワークを提案する。
モデルを変更するのではなく,(1)学習に欠落している言語の例を合成するための翻訳ベースの拡張,(2)ハードネガティブの生成とクラス不均衡を軽減するセマンティックネガティブサンプリング,(3)誤ラベルの可能性のあるインスタンスの検出と削除のための自己検証フィルタリングという3つの補完戦略を用いて,トレーニングデータを再設計する。
CIKM AnalytiCup 2025データセットに基づいて評価し、当社のアプローチは、強力なLCMベースラインよりも大幅にF1スコアの改善を実現し、公式競争において競争結果を達成する。
実世界のeコマース環境において、堅牢な多言語検索システムを構築するための実用的なガイダンスを提供する。
関連論文リスト
- Alibaba International E-commerce Product Search Competition DILAB Team Technical Report [2.985561943631461]
本研究ではDILABチームが開発した多言語eコマース検索システムについて述べる。
最終予選では総合得点0.8819で5位となり、評価指標の安定性と高いパフォーマンスを実証した。
論文 参考訳(メタデータ) (2025-10-21T10:36:02Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment [9.952187981270326]
我々はSentiment Cross-Lingual Recognition and Logic Framework (SentiXRL)を提案する。
SentiXRLには2つのモジュールがあり、感情検索拡張モジュールは、歴史的対話と論理的推論を通じて複雑な文脈における感情分類の精度を向上させる。
我々は、複数の標準データセット上でSentiXRLの優位性を検証し、CPEDおよびCH-SIMSの既存モデルよりも優れており、MELD、Emorynlp、IEMOCAPの全体的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:18:26Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。