論文の概要: RexBERT: Context Specialized Bidirectional Encoders for E-commerce
- arxiv url: http://arxiv.org/abs/2602.04605v1
- Date: Wed, 04 Feb 2026 14:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.570853
- Title: RexBERT: Context Specialized Bidirectional Encoders for E-commerce
- Title(参考訳): RexBERT:Eコマースのためのコンテキスト特化双方向エンコーダ
- Authors: Rahul Bajaj, Anuj Garg,
- Abstract要約: RexBERTは、Eコマースセマンティクス向けに設計されたBERTスタイルのエンコーダのファミリーである。
Ecom-niverseは、様々な小売やショッピングソースからキュレートされた350億のトークンコーパスです。
我々は17Mから4MまでのRexBERTモデルをトレーニングし、トークン分類、意味的類似性、一般的な自然言語理解タスクに基づいて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.
- Abstract(参考訳): エンコーダのみのトランスフォーマーは、レイテンシ、安定性、コストが最重要となる検索、分類、ランキングシステムにおいて不可欠である。
しかし、ほとんどの汎用エンコーダは、特定のドメインを限定した汎用コーパスで訓練されている。
本稿では,eコマースセマンティクスに特化して設計されたBERTスタイルエンコーダのファミリーであるRexBERTを紹介する。
私たちは3つの貢献をします。
まず、多様な小売やショッピングソースからキュレートされた350億のトークンコーパスであるEcom-niverseをリリースする。
本研究では,FinalFineWebなどのオープンなWebリソースからEコマースコンテンツを分離し,抽出するモジュールパイプラインについて述べる。
第2に,ModernBERTのアーキテクチャの進歩に基づく再現可能な事前学習型レシピ構築を提案する。
レシピは、一般的な事前学習、コンテキスト拡張、および熱処理されたドメイン特殊化の3つのフェーズから構成される。
第3に、RexBERTモデルを17Mから4Mのパラメータからトレーニングし、トークン分類、意味的類似性、およびeコマースデータセットを用いた自然言語理解タスクに基づいて評価する。
2~3倍のパラメータを持つにもかかわらず、RexBERTはより大きな汎用エンコーダを上回り、ドメイン固有のベンチマークで現代の長文モデルにマッチまたは超えている。
以上の結果から,高品質なドメイン内データと原則的トレーニングアプローチを組み合わせることで,スケーリングのみを非差別化するよりも,eコマースアプリケーションに強力な基盤を提供することが示された。
関連論文リスト
- OneMall: One Architecture, More Scenarios -- End-to-End Generative Recommender Family at Kuaishou E-Commerce [68.7552227901176]
OneMallは、Kuaishouのeコマースサービスに適したエンドツーエンドのジェネレーティブレコメンデーションフレームワークである。
製品カード、ショートビデオ、ライブストリーミングなど、eコマースの複数のアイテム配信シナリオを統合する。
OneMallはすでにデプロイされており、Kuaishouでは毎日4億人のアクティブユーザーが利用している。
論文 参考訳(メタデータ) (2026-01-29T14:22:39Z) - ManufactuBERT: Efficient Continual Pretraining for Manufacturing [1.8628821924525962]
ManufactuBERTは、製造ドメイン用にキュレートされた大規模コーパス上で継続的に事前訓練されたモデルである。
ManufactuBERTは、製造関連NLPタスクに新たな最先端技術を確立し、強力な専門的ベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T10:29:49Z) - A Language Model-Driven Semi-Supervised Ensemble Framework for Illicit Market Detection Across Deep/Dark Web and Social Platforms [9.521604326086608]
本稿では,微調整言語モデルと半教師付きアンサンブル学習戦略を組み合わせた階層型分類フレームワークを提案する。
深層WebページやTelegramチャネル,Subreddits,Pastebinペーストから,ドメイン固有のデータを微調整したModernBERTを用いて意味表現を抽出する。
文書構造、Bitcoinアドレス、Eメール、IP、メタデータなどの組み込みパターンなど、手動で設計した機能を導入しています。
論文 参考訳(メタデータ) (2025-07-19T05:54:52Z) - Building a Few-Shot Cross-Domain Multilingual NLU Model for Customer Care [1.0129089187146396]
注釈付きデータに微調整された多言語BERTのようなSOTA事前訓練されたモデルは、顧客ケアに関連する下流タスクにおいて優れたパフォーマンスを示している。
本稿では,いくつかのラベル付きサンプルを用いて,最先端のドメイン固有モデルを他のドメインに拡張する組込みモデルアーキテクチャを提案する。
カナダとメキシコのeコマース Customer Careデータセットを数ショットで検出する実験では、精度が20~23%向上した。
論文 参考訳(メタデータ) (2025-06-04T19:14:48Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。