論文の概要: Learning Large-scale Universal User Representation with Sparse Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2207.04648v1
- Date: Mon, 11 Jul 2022 06:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 00:44:07.067543
- Title: Learning Large-scale Universal User Representation with Sparse Mixture
of Experts
- Title(参考訳): スパースミキサーを用いた大規模ユニバーサルユーザ表現の学習
- Authors: Caigao Jiang, Siqiao Xue, James Zhang, Lingyue Liu, Zhibo Zhu, Hongyan
Hao
- Abstract要約: 複数のタスクから高品質なユーザ表現を得るための汎用フレームワーク SUPERMOE を提案する。
具体的には、ユーザ動作シーケンスをMoE変換器で符号化することで、モデル容量を数十億のパラメータに増やすことができる。
複数のタスクにまたがる学習においてシーソー現象に対処するために,タスクインジケータを用いた新たな損失関数を設計する。
- 参考スコア(独自算出の注目度): 1.2722697496405464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning user sequence behaviour embedding is very sophisticated and
challenging due to the complicated feature interactions over time and high
dimensions of user features. Recent emerging foundation models, e.g., BERT and
its variants, encourage a large body of researchers to investigate in this
field. However, unlike natural language processing (NLP) tasks, the parameters
of user behaviour model come mostly from user embedding layer, which makes most
existing works fail in training a universal user embedding of large scale.
Furthermore, user representations are learned from multiple downstream tasks,
and the past research work do not address the seesaw phenomenon. In this paper,
we propose SUPERMOE, a generic framework to obtain high quality user
representation from multiple tasks. Specifically, the user behaviour sequences
are encoded by MoE transformer, and we can thus increase the model capacity to
billions of parameters, or even to trillions of parameters. In order to deal
with seesaw phenomenon when learning across multiple tasks, we design a new
loss function with task indicators. We perform extensive offline experiments on
public datasets and online experiments on private real-world business
scenarios. Our approach achieves the best performance over state-of-the-art
models, and the results demonstrate the effectiveness of our framework.
- Abstract(参考訳): ユーザシーケンスの振る舞いの埋め込みを学習するのは、時間と高次元にわたる複雑な機能相互作用のため、非常に高度で難しい。
最近の基盤モデル、例えばBERTとその変種は、多くの研究者がこの分野で研究することを奨励している。
しかし、自然言語処理(NLP)タスクとは異なり、ユーザ行動モデルのパラメータは、主にユーザ埋め込み層から来ているため、既存のほとんどの作業は大規模なユーザ埋め込みのトレーニングに失敗する。
さらに,複数のダウンストリームタスクからユーザ表現を学習し,過去の研究ではシーソー現象に対処していない。
本稿では,複数のタスクから高品質なユーザ表現を得るための汎用フレームワークであるSUPERMOEを提案する。
具体的には、ユーザ動作シーケンスはmoeトランスフォーマーによってエンコードされ、モデルキャパシティを数十億のパラメータ、さらには数兆のパラメータに増やすことができます。
複数のタスクにまたがる学習時のシーソー現象に対処するために,タスクインジケータを用いた新しい損失関数を設計する。
我々は、パブリックデータセットで広範囲なオフライン実験を行い、プライベートな実ビジネスシナリオのオンライン実験を行う。
我々のアプローチは最先端モデルよりも最高のパフォーマンスを達成し,その結果,フレームワークの有効性を実証する。
関連論文リスト
- DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Task Relation-aware Continual User Representation Learning [26.514449669395297]
ユーザモデリングにおけるこれまでの取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。
近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念が紹介されている。
その効果にもかかわらず、普遍的なユーザ表現を学習するための既存のアプローチは、現実世界のアプリケーションでは実用的ではない。
本稿では,学習タスク数が増加するにつれて,学習能力が制限されない,TERACONと呼ばれる新しい連続的ユーザ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T08:10:03Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Scaling Law for Recommendation Models: Towards General-purpose User
Representations [3.3073775218038883]
広義のユーザエンコーダを大規模に訓練し,汎用的なユーザ表現学習の可能性を検討する。
本稿では,ユーザモデリング領域におけるスケーリングの法則について述べる。この法則では,トレーニングエラーが計算量とともにパワー則としてスケールする。
また,モデルキャパシティ,シーケンス長,バッチサイズなど,スケールアップ要因によるパフォーマンスの変化についても検討する。
論文 参考訳(メタデータ) (2021-11-15T10:39:29Z) - Empowering General-purpose User Representation with Full-life Cycle
Behavior Modeling [11.698166058448555]
本稿では,この課題に対処するために,フルライフサイクルユーザ表現モデル(LURM)と呼ばれる新しいフレームワークを提案する。
LURMは2つのカスケードサブモデルで構成されている: (I) Bag-of-Interests (BoI) は、任意の期間におけるユーザの振る舞いを超高次元のスパースベクトル(例:105)にエンコードする。
SMENは、ユーザ関心の異なる側面を学習できる新しいマルチアンカーモジュールの恩恵を受け、ほぼ次元の削減を実現している。
論文 参考訳(メタデータ) (2021-10-20T08:24:44Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。