論文の概要: OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
- arxiv url: http://arxiv.org/abs/2510.26104v1
- Date: Thu, 30 Oct 2025 03:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.646639
- Title: OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
- Title(参考訳): OneTrans: インダストリアルレコメンデーションにおける一変圧器による一元的特徴相互作用とシーケンスモデリング
- Authors: Zhaoqi Zhang, Haolei Pei, Jun Guo, Tianyu Wang, Yufei Feng, Hui Sun, Shaowei Liu, Aixin Sun,
- Abstract要約: OneTransは、ユーザー・ビヘイビア・シーケンス・モデリングと機能相互作用を同時に実行する統合トランスフォーマー・バックボーンである。
オンラインA/Bテストでは、OneTransはパラメータの増加とともに効率よくスケールし、強いベースラインを一貫して上回り、ユーザ当たりのGMVは5.68%上昇する。
- 参考スコア(独自算出の注目度): 32.265739328468584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommendation systems, scaling up feature-interaction modules (e.g., Wukong, RankMixer) or user-behavior sequence modules (e.g., LONGER) has achieved notable success. However, these efforts typically proceed on separate tracks, which not only hinders bidirectional information exchange but also prevents unified optimization and scaling. In this paper, we propose OneTrans, a unified Transformer backbone that simultaneously performs user-behavior sequence modeling and feature interaction. OneTrans employs a unified tokenizer to convert both sequential and non-sequential attributes into a single token sequence. The stacked OneTrans blocks share parameters across similar sequential tokens while assigning token-specific parameters to non-sequential tokens. Through causal attention and cross-request KV caching, OneTrans enables precomputation and caching of intermediate representations, significantly reducing computational costs during both training and inference. Experimental results on industrial-scale datasets demonstrate that OneTrans scales efficiently with increasing parameters, consistently outperforms strong baselines, and yields a 5.68% lift in per-user GMV in online A/B tests.
- Abstract(参考訳): レコメンデーションシステムでは、機能-インタラクションモジュール(例えば、Wukong, RankMixer)やユーザ-ビヘイビアシーケンスモジュール(例えば、LONGER)のスケールアップが顕著に成功している。
しかし、これらの取り組みは通常、双方向の情報交換を妨げるだけでなく、最適化とスケーリングの統一を妨げる、別々のトラックで進行する。
本論文では,ユーザ・ビヘイビア・シーケンス・モデリングと機能相互作用を同時に行う統合トランスフォーマー・バックボーンであるOneTransを提案する。
OneTransは、シーケンシャル属性と非シーケンシャル属性の両方を単一のトークンシーケンスに変換するために、統一トークン化器を使用している。
スタックされたOneTransブロックは、トークン固有のパラメータを非シーケンストークンに割り当てながら、同様のシーケンシャルトークン間でパラメータを共有する。
因果的注意と相互要求KVキャッシングを通じて、OneTransは中間表現の事前計算とキャッシングを可能にし、トレーニングと推論の両方において計算コストを大幅に削減する。
産業規模のデータセットの実験結果によると、OneTransはパラメータの増加とともに効率よくスケールし、強いベースラインを一貫して上回り、オンラインA/Bテストではユーザ毎のGMVが5.68%上昇する。
関連論文リスト
- Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。
これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文 参考訳(メタデータ) (2025-02-18T09:34:31Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。