論文の概要: Analyticup E-commerce Product Search Competition Technical Report from Team Tredence_AICOE
- arxiv url: http://arxiv.org/abs/2510.20674v1
- Date: Thu, 23 Oct 2025 15:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.25436
- Title: Analyticup E-commerce Product Search Competition Technical Report from Team Tredence_AICOE
- Title(参考訳): Team Tredence_AICOEによるEコマース製品検索競争の分析
- Authors: Rakshith R, Shubham Sharma, Mohammed Sameer Khan, Ankush Chopra,
- Abstract要約: 本研究では,Tredence_AIチームが開発した多言語eコマース検索システムを提案する。
Gemma-3 12Bモデルは、オリジナルのデータと翻訳されたデータを使って最高のQCパフォーマンスを達成し、オリジナル、翻訳されたデータ、マイノリティクラスのデータ生成を使って最高のQIパフォーマンスを達成した。
これらのアプローチは最終リーダーボードで4位を獲得し、テストセットの平均F1スコアは0.8857だった。
- 参考スコア(独自算出の注目度): 1.1856441276327574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the multilingual e-commerce search system developed by the Tredence_AICOE team. The competition features two multilingual relevance tasks: Query-Category (QC) Relevance, which evaluates how well a user's search query aligns with a product category, and Query-Item (QI) Relevance, which measures the match between a multilingual search query and an individual product listing. To ensure full language coverage, we performed data augmentation by translating existing datasets into languages missing from the development set, enabling training across all target languages. We fine-tuned Gemma-3 12B and Qwen-2.5 14B model for both tasks using multiple strategies. The Gemma-3 12B (4-bit) model achieved the best QC performance using original and translated data, and the best QI performance using original, translated, and minority class data creation. These approaches secured 4th place on the final leaderboard, with an average F1-score of 0.8857 on the private test set.
- Abstract(参考訳): 本研究では,Tredence_AICOEチームが開発した多言語eコマース検索システムについて述べる。
競合には2つの多言語関連タスクがある: Query-Category (QC) Relevance – ユーザの検索クエリが製品カテゴリとどのように一致しているかを評価する。
完全な言語カバレッジを確保するため、既存のデータセットを開発セットから欠落した言語に翻訳することで、データ拡張を行い、すべてのターゲット言語でのトレーニングを可能にしました。
Gemma-3 12B と Qwen-2.5 14B を複数の戦略を用いて微調整した。
Gemma-3 12B (4-bit) モデルは、オリジナルのデータと翻訳されたデータを使用して最高のQCパフォーマンスを達成し、オリジナル、翻訳されたデータ、マイノリティクラスのデータ生成を使用して最高のQIパフォーマンスを達成した。
これらのアプローチは最終リーダーボードで4位を獲得し、テストセットの平均F1スコアは0.8857だった。
関連論文リスト
- Alibaba International E-commerce Product Search Competition DILAB Team Technical Report [2.985561943631461]
本研究ではDILABチームが開発した多言語eコマース検索システムについて述べる。
最終予選では総合得点0.8819で5位となり、評価指標の安定性と高いパフォーマンスを実証した。
論文 参考訳(メタデータ) (2025-10-21T10:36:02Z) - MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining [27.952041404675846]
高品質な英語データ品質の信号を17のターゲット言語に対して単一のレーダに転送するフレームワークであるMuRatingを紹介した。
MuRatingは、ペア比較を通じて複数の英語の「レーダ」を集約し、統一された文書品質スコアを学習する。
その後、翻訳を通じてこれらの判断を投影し、モノリンガル、クロスランガル、およびパラレルテキストペア上で多言語評価器を訓練する。
論文 参考訳(メタデータ) (2025-07-02T15:11:12Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - Test-Time Code-Switching for Cross-lingual Aspect Sentiment Triplet Extraction [12.269762062755492]
本稿では,バイリンガル学習フェーズと単言語テストタイム予測のギャップを埋めるために,TT-CSW(Test-Time Code-SWitching)フレームワークを提案する。
訓練中は、バイリンガルコード切替トレーニングデータに基づいて生成モデルを構築し、バイリンガル入力のためのバイリンガルASTE三重項を生成する。
テスト段階では、テスト時間拡張のためにアライメントベースのコードスイッチング技術を使用します。
論文 参考訳(メタデータ) (2025-01-24T00:00:51Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。