論文の概要: SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders
- arxiv url: http://arxiv.org/abs/2603.03988v1
- Date: Wed, 04 Mar 2026 12:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.297542
- Title: SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders
- Title(参考訳): SORT: 産業用レコメンデーション用システム最適化ランク変換器
- Authors: Chunqi Wang, Bingchao Wu, Taotian Pang, Jiahao Wang, Jie Yang, Jia Liu, Hao Zhang, Hai Zhu, Lei Shen, Shizhun Wang, Bing Wang, Xiaoyi Zeng,
- Abstract要約: SORT(Systematically Optimized Ranking Transformer)は、トランスフォーマーと産業規模ランキングモデルのギャップを埋めるために設計されたスケーラブルモデルである。
一連の最適化により,高機能空間と低ラベル密度の課題に対処する。
SORTは、データサイズ、モデルサイズ、シーケンス長にまたがる優れたスケーラビリティを示しながら、多様な機能の統合には柔軟性が保たれています。
- 参考スコア(独自算出の注目度): 21.80413275965637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformers have achieved remarkable success in LLMs through superior scalability, their application in industrial-scale ranking models remains nascent, hindered by the challenges of high feature sparsity and low label density. In this paper, we propose SORT (Systematically Optimized Ranking Transformer), a scalable model designed to bridge the gap between Transformers and industrial-scale ranking models. We address the high feature sparsity and low label density challenges through a series of optimizations, including request-centric sample organization, local attention, query pruning and generative pre-training. Furthermore, we introduce a suite of refinements to the tokenization, multi-head attention (MHA), and feed-forward network (FFN) modules, which collectively stabilize the training process and enlarge the model capacity. To maximize hardware efficiency, we optimize our training system to elevate the model FLOPs utilization (MFU) to 22%. Extensive experiments demonstrate that SORT outperforms strong baselines and exhibits excellent scalability across data size, model size and sequence length, while remaining flexible at integrating diverse features. Finally, online A/B testing in large-scale e-commerce scenarios confirms that SORT achieves significant gains in key business metrics, including orders (+6.35%), buyers (+5.97%) and GMV (+5.47%), while simultaneously halving latency (-44.67%) and doubling throughput (+121.33%).
- Abstract(参考訳): トランスフォーマーは優れたスケーラビリティによってLDMにおいて顕著な成功を収めてきたが、産業規模のランキングモデルへのその適用は、高い特徴空間と低いラベル密度の課題によって妨げられている。
本稿では,変圧器と産業規模ランキングモデルのギャップを埋めるスケーラブルなモデルであるSORT(Systematically Optimized Ranking Transformer)を提案する。
要求中心のサンプル組織,ローカルアテンション,クエリプルーニング,生成前トレーニングなど,一連の最適化を通じて,高機能空間と低ラベル密度の課題に対処する。
さらに、トークン化、マルチヘッドアテンション(MHA)、フィードフォワードネットワーク(FFN)モジュールに一連の改良を加え、トレーニングプロセスを一括して安定化させ、モデルキャパシティを拡大する。
ハードウェア効率を最大化するために,モデルのFLOPs利用率(MFU)を22%に向上させるために,トレーニングシステムを最適化する。
大規模な実験では、SORTは強力なベースラインを上回り、データサイズ、モデルサイズ、シーケンスの長さにわたって優れたスケーラビリティを示しながら、多様な機能の統合には柔軟性が保たれています。
最後に、大規模なeコマースシナリオにおけるオンラインA/Bテストでは、SORTが注文数(+6.35%)、購入者(+5.97%)、GMV(+5.47%)など主要なビジネス指標で大幅に向上し、同時にレイテンシ(-44.67%)とスループット(+121.33%)が半減することを確認した。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - Synergistic Enhancement of Requirement-to-Code Traceability: A Framework Combining Large Language Model based Data Augmentation and an Advanced Encoder [5.241456612683375]
本稿では,大規模言語モデル(LLM)によるデータ拡張と高度なエンコーダを統合するフレームワークを提案し,検証する。
まず、双方向およびゼロ/フェーショットプロンプト戦略の体系的評価によって最適化されたデータ拡張が、非常に効果的であることを実証した。
さらに、より広範な事前学習コーパスと拡張コンテキストウィンドウによって区別されるエンコーダを組み込むことにより、最先端の事前学習言語モデルに基づく確立された手法をさらに強化する。
論文 参考訳(メタデータ) (2025-09-24T14:14:21Z) - Fremer: Lightweight and Effective Frequency Transformer for Workload Forecasting in Cloud Services [9.687789919349523]
本稿では,効率的かつ効果的な深層予測モデルであるFremerを提案する。
Fremerは3つの重要な要件を満たす: 優れた効率を示し、ほとんどのTransformerベースの予測モデルを上回る。
作業負荷予測において、すべての最先端(SOTA)モデルを上回る、例外的な精度を実現している。
論文 参考訳(メタデータ) (2025-07-17T08:51:28Z) - Divide, Optimize, Merge: Fine-Grained LLM Agent Optimization at Scale [19.60416591361918]
Fine-Grained Optimization (FGO)は、大規模最適化タスクを管理可能なサブセットに分割し、ターゲット最適化を実行し、プログレッシブマージを通じて最適化されたコンポーネントを体系的に結合するスケーラブルなフレームワークである。
ALFWorld、LogisticsQA、GAIAベンチマークによる評価では、FGOは既存のアプローチを1.6-8.6%上回り、平均的なプロンプトトークン消費量を56.3%削減している。
論文 参考訳(メタデータ) (2025-05-06T20:50:27Z) - Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。
W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。
経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文 参考訳(メタデータ) (2025-04-07T07:27:31Z) - Meta-Computing Enhanced Federated Learning in IIoT: Satisfaction-Aware Incentive Scheme via DRL-Based Stackelberg Game [50.6166553799783]
効率的なIIoT操作は、モデル品質とトレーニング遅延の間のトレードオフを必要とする。
本稿では,データサイズ,情報時代(AoI),メタコンピューティングのトレーニング遅延を考慮した満足度関数を設計する。
我々は、スタックルバーグ均衡を学ぶために、深い強化学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-02-10T03:33:36Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Efficient Federated Intrusion Detection in 5G ecosystem using optimized BERT-based model [0.7100520098029439]
5Gは高度なサービスを提供し、IoT(Internet of Things)内のインテリジェントトランスポート、コネクテッドヘルスケア、スマートシティなどのアプリケーションをサポートする。
これらの進歩は、ますます高度なサイバー攻撃を伴う、重大なセキュリティ上の課題をもたらす。
本稿では,連合学習と大規模言語モデル(LLM)を用いた頑健な侵入検知システム(IDS)を提案する。
論文 参考訳(メタデータ) (2024-09-28T15:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。