論文の概要: A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance
- arxiv url: http://arxiv.org/abs/2510.21671v1
- Date: Fri, 24 Oct 2025 17:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.445778
- Title: A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance
- Title(参考訳): 多言語Eコマース製品検索におけるデータ中心的アプローチ:クエリカテゴリとクエリ項目関連を事例として
- Authors: Yabo Yin, Yang Xi, Jialong Wang, Shanqi Wang, Jiateng Hu,
- Abstract要約: 複数言語によるeコマース検索は、言語間で深刻なデータ不均衡に悩まされている。
2つのコアタスクのパフォーマンスを向上させるために,実用的で,アーキテクチャに依存しない,データ中心のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.017203385311908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual e-commerce search suffers from severe data imbalance across languages, label noise, and limited supervision for low-resource languages--challenges that impede the cross-lingual generalization of relevance models despite the strong capabilities of large language models (LLMs). In this work, we present a practical, architecture-agnostic, data-centric framework to enhance performance on two core tasks: Query-Category (QC) relevance (matching queries to product categories) and Query-Item (QI) relevance (matching queries to product titles). Rather than altering the model, we redesign the training data through three complementary strategies: (1) translation-based augmentation to synthesize examples for languages absent in training, (2) semantic negative sampling to generate hard negatives and mitigate class imbalance, and (3) self-validation filtering to detect and remove likely mislabeled instances. Evaluated on the CIKM AnalytiCup 2025 dataset, our approach consistently yields substantial F1 score improvements over strong LLM baselines, achieving competitive results in the official competition. Our findings demonstrate that systematic data engineering can be as impactful as--and often more deployable than--complex model modifications, offering actionable guidance for building robust multilingual search systems in the real-world e-commerce settings.
- Abstract(参考訳): マルチリンガルなeコマース検索は、言語間の深刻なデータ不均衡、ラベルノイズ、低リソース言語に対する限定的な監督に悩まされており、大きな言語モデル(LLM)の強い能力にもかかわらず、関連モデルの言語間一般化を妨げている。
本稿では,QC(Query-Category)とQI(Query-Item)の2つのコアタスクのパフォーマンス向上を目的とした,実用的でアーキテクチャに依存しないデータ中心のフレームワークを提案する。
モデルを変更するのではなく,(1)学習に欠落している言語の例を合成するための翻訳ベースの拡張,(2)ハードネガティブの生成とクラス不均衡を軽減するセマンティックネガティブサンプリング,(3)誤ラベルの可能性のあるインスタンスの検出と削除のための自己検証フィルタリングという3つの補完戦略を用いて,トレーニングデータを再設計する。
CIKM AnalytiCup 2025データセットに基づいて評価し、当社のアプローチは、強力なLCMベースラインよりも大幅にF1スコアの改善を実現し、公式競争において競争結果を達成する。
実世界のeコマース環境において、堅牢な多言語検索システムを構築するための実用的なガイダンスを提供する。
関連論文リスト
- Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。
LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。
我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文 参考訳(メタデータ) (2026-01-21T11:32:32Z) - Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings [12.049937870582113]
本稿では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークを提案する。
Compass-Embedding v4は3つの課題に対処する。
我々は,コンテキスト基底合成データ生成,言語間翻訳,構造化されたeコマースデータ構築を通じて,多様な学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-12-25T13:41:53Z) - Improving Product Search Relevance with EAR-MP: A Solution for the CIKM 2025 AnalytiCup [2.1262029296728224]
本稿ではCIKM 2025 AnalytiCupのソリューションについて報告する。
提案手法では,全文を英語に翻訳することで,多言語データセットを正規化し,広範囲なデータクリーニングと正規化によって雑音を緩和する。
モデルトレーニングでは,DeBERTa-v3-large上に構築し,ラベルの平滑化,自己蒸留,ドロップアウトによる性能向上を行う。
制約付き計算では,F1スコアはQC0.8796,QI0.8744となる。
論文 参考訳(メタデータ) (2025-10-27T05:32:13Z) - Alibaba International E-commerce Product Search Competition DILAB Team Technical Report [2.985561943631461]
本研究ではDILABチームが開発した多言語eコマース検索システムについて述べる。
最終予選では総合得点0.8819で5位となり、評価指標の安定性と高いパフォーマンスを実証した。
論文 参考訳(メタデータ) (2025-10-21T10:36:02Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。
このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。
その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2025-01-10T18:44:06Z) - SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment [9.952187981270326]
我々はSentiment Cross-Lingual Recognition and Logic Framework (SentiXRL)を提案する。
SentiXRLには2つのモジュールがあり、感情検索拡張モジュールは、歴史的対話と論理的推論を通じて複雑な文脈における感情分類の精度を向上させる。
我々は、複数の標準データセット上でSentiXRLの優位性を検証し、CPEDおよびCH-SIMSの既存モデルよりも優れており、MELD、Emorynlp、IEMOCAPの全体的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:18:26Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。