論文の概要: Alibaba International E-commerce Product Search Competition DILAB Team Technical Report
- arxiv url: http://arxiv.org/abs/2510.18499v1
- Date: Tue, 21 Oct 2025 10:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.429174
- Title: Alibaba International E-commerce Product Search Competition DILAB Team Technical Report
- Title(参考訳): アリババ国際Eコマース製品検索コンペティションDILABチームテクニカルレポート
- Authors: Hyewon Lee, Junghyun Oh, Minkyung Song, Soyoung Park, Seunghoon Han,
- Abstract要約: 本研究ではDILABチームが開発した多言語eコマース検索システムについて述べる。
最終予選では総合得点0.8819で5位となり、評価指標の安定性と高いパフォーマンスを実証した。
- 参考スコア(独自算出の注目度): 2.985561943631461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the multilingual e-commerce search system developed by the DILAB team, which achieved 5th place on the final leaderboard with a competitive overall score of 0.8819, demonstrating stable and high-performing results across evaluation metrics. To address challenges in multilingual query-item understanding, we designed a multi-stage pipeline integrating data refinement, lightweight preprocessing, and adaptive modeling. The data refinement stage enhanced dataset consistency and category coverage, while language tagging and noise filtering improved input quality. In the modeling phase, multiple architectures and fine-tuning strategies were explored, and hyperparameters optimized using curated validation sets to balance performance across query-category (QC) and query-item (QI) tasks. The proposed framework exhibited robustness and adaptability across languages and domains, highlighting the effectiveness of systematic data curation and iterative evaluation for multilingual search systems. The source code is available at https://github.com/2noweyh/DILAB-Alibaba-Ecommerce-Search.
- Abstract(参考訳): 本研究はDILABチームが開発した多言語eコマースサーチシステムで, 総合得点0.8819で最終リーダーボードで5位を獲得し, 評価指標の安定度と高い性能を実証した。
多言語クエリ・イテム理解の課題に対処するため,データリファインメント,軽量プリプロセッシング,適応モデリングを統合した多段階パイプラインを設計した。
データリファインメントステージではデータセットの一貫性とカテゴリカバレッジが向上し、言語タグ付けとノイズフィルタリングによって入力品質が向上した。
モデリングフェーズでは、複数のアーキテクチャと微調整戦略が検討され、クエリカテゴリ(QC)とクエリイテム(QI)タスク間のパフォーマンスのバランスをとるために、キュレートされた検証セットを使用してハイパーパラメータが最適化された。
提案手法は,言語とドメイン間の堅牢性と適応性を示し,多言語検索システムにおける体系的データキュレーションの有効性と反復的評価を強調した。
ソースコードはhttps://github.com/2noweyh/DILAB-Alibaba-ECommerce-Searchで公開されている。
関連論文リスト
- Analyticup E-commerce Product Search Competition Technical Report from Team Tredence_AICOE [1.1856441276327574]
本研究では,Tredence_AIチームが開発した多言語eコマース検索システムを提案する。
Gemma-3 12Bモデルは、オリジナルのデータと翻訳されたデータを使って最高のQCパフォーマンスを達成し、オリジナル、翻訳されたデータ、マイノリティクラスのデータ生成を使って最高のQIパフォーマンスを達成した。
これらのアプローチは最終リーダーボードで4位を獲得し、テストセットの平均F1スコアは0.8857だった。
論文 参考訳(メタデータ) (2025-10-23T15:49:20Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA [39.131225916852834]
思考の連鎖(CoT)推論は、解釈可能性と複雑な推論を高めることが証明されている。
LaV-CoTは、マルチアスペクト・リワード最適化を備えた最初の言語対応Visual CoTフレームワークである。
LaV-CoTはオープンソースベースラインよりも9.5%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-12T07:45:44Z) - Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes [0.0]
建築法典は、構造的整合性、防火、アクセシビリティを確保するために、建物の設計、建設、安全性の基準を確立する規則である。
主な課題は、大量のテキストをナビゲートすること、技術的言語を解釈すること、異なるセクションにまたがる関連する節を特定することである。
潜在的な解決策は、ビルドコードに基づいてユーザクエリに回答するQA(QA)システムを構築することである。
QAシステムを構築するための様々な方法のうち、RAG(Retrieval-Augmented Generation)のパフォーマンスは際立っている。
論文 参考訳(メタデータ) (2025-05-07T05:04:30Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques [10.57012904999091]
我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
論文 参考訳(メタデータ) (2023-02-14T12:37:32Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。