論文の概要: Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings
- arxiv url: http://arxiv.org/abs/2601.11565v1
- Date: Thu, 25 Dec 2025 13:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.759884
- Title: Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings
- Title(参考訳): Compass-Embedding v4: 多言語Eコマース埋め込みのためのロバストコントラスト学習
- Authors: Pakorn Ueareeworakul, Shuman Liu, Jinghao Feng, Ling Hu, Zhantang Shi, Chengqi Sun, Liang Yao, Panyi Ouyang, Haibo Zhang, Anxiang Zeng,
- Abstract要約: 本稿では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークを提案する。
Compass-Embedding v4は3つの課題に対処する。
我々は,コンテキスト基底合成データ生成,言語間翻訳,構造化されたeコマースデータ構築を通じて,多様な学習コーパスを構築する。
- 参考スコア(独自算出の注目度): 12.049937870582113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As global e-commerce rapidly expands into emerging markets, the lack of high-quality semantic representations for low-resource languages has become a decisive bottleneck for retrieval, recommendation, and search systems. In this work, we present Compass-Embedding v4, a high-efficiency multilingual embedding framework specifically optimized for Southeast Asian (SEA) e-commerce scenarios, where data scarcity, noisy supervision, and strict production constraints jointly challenge representation learning. Compass-Embedding v4 addresses three core challenges. First, large-batch contrastive training under mixed task supervision introduces systematic false negatives that degrade semantic alignment. We propose Class-Aware Masking (CAM), a lightweight modification to the InfoNCE objective that suppresses invalid in-batch negatives and improves semantic discrimination without altering training efficiency. Second, low-resource SEA languages suffer from limited and uneven data coverage. We construct a diversified training corpus through context-grounded synthetic data generation, cross-lingual translation, and structured e-commerce data construction, enabling robust multilingual and domain-specific learning. Third, production deployment requires high-throughput inference while preserving embedding quality. We combine robustness-driven large-batch training with spherical model merging to mitigate catastrophic forgetting, and optimize inference via vLLM and FP8 quantization. Extensive evaluations across multilingual benchmarks and proprietary e-commerce tasks show that Compass-Embedding v4 achieves state-of-the-art performance on major SEA languages, significantly outperforming general-purpose embedding models in domain-specific retrieval and classification, while maintaining competitive performance on high-resource languages.
- Abstract(参考訳): グローバルなeコマースが急速に新興市場へと拡大するにつれて、低リソース言語に対する高品質なセマンティック表現の欠如は、検索、レコメンデーション、検索システムにとって決定的なボトルネックとなっている。
本研究では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークであるCompass-Embedding v4を紹介する。
Compass-Embedding v4は3つの課題に対処する。
第一に、混在タスク監督下での大規模バッチコントラストトレーニングは、意味的アライメントを低下させる体系的な偽陰性を導入する。
CAM(Class-Aware Masking, Class-Aware Masking)はInfoNCEの目的に対する軽量な修正であり、不正なバッチ内陰性を抑え、トレーニング効率を変化させることなく意味的識別を改善する。
第二に、低リソースのSEA言語は、限られたデータカバレッジと不均一なデータカバレッジに悩まされている。
我々は、コンテキスト基底合成データ生成、言語間翻訳、構造化されたeコマースデータ構築を通じて、多言語およびドメイン固有の堅牢な学習を可能にする多言語学習コーパスを構築する。
第3に、本番環境のデプロイメントには、組み込み品質を維持しながら、高スループットの推論が必要である。
我々は,強靭性駆動型大規模バッチトレーニングと球面モデルを組み合わせることで破滅的忘れを軽減し,vLLMとFP8量子化による推論を最適化する。
マルチリンガルベンチマークとプロプライエタリなeコマースタスクの広範な評価は、Compass-Embedding v4が主要なSEA言語で最先端のパフォーマンスを実現し、高リソース言語での競争性能を維持しつつ、ドメイン固有の検索と分類において汎用的な埋め込みモデルを大幅に上回っていることを示している。
関連論文リスト
- GigaEmbeddings: Efficient Russian Language Embedding Model [1.3460582882338625]
GigaEmbeddingsは、階層的なインストラクションチューニングを通じて、高性能なロシアのテキスト埋め込みをトレーニングするためのフレームワークである。
私たちの3段階パイプラインは、さまざまな目的を統一し、合成データ生成を活用することで、既存のメソッドの重要な制限に対処します。
GigaEmbeddingsは23の多言語タスクにまたがるruMTEBベンチマークで最先端の結果(69.1 avg.スコア)を達成している。
論文 参考訳(メタデータ) (2025-10-25T17:26:05Z) - A Data-Centric Approach to Multilingual E-Commerce Product Search: Case Study on Query-Category and Query-Item Relevance [4.017203385311908]
複数言語によるeコマース検索は、言語間で深刻なデータ不均衡に悩まされている。
2つのコアタスクのパフォーマンスを向上させるために,実用的で,アーキテクチャに依存しない,データ中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-24T17:27:35Z) - Aligning LLMs for Multilingual Consistency in Enterprise Applications [39.24743635297897]
大規模言語モデル(LLM)は、グローバルなエンタープライズアプリケーションには信頼できないままである。
細調整LDMのための実用的なバッチワイドアライメント戦略を提案する。
このアプローチは、英語のパフォーマンス、モデル推論、検索品質を損なうことなく、英語以外の精度を最大23.9%向上させる。
論文 参考訳(メタデータ) (2025-09-28T05:51:22Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。