論文の概要: Scaling Law for Recommendation Models: Towards General-purpose User
Representations
- arxiv url: http://arxiv.org/abs/2111.11294v1
- Date: Mon, 15 Nov 2021 10:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-28 18:11:57.002860
- Title: Scaling Law for Recommendation Models: Towards General-purpose User
Representations
- Title(参考訳): 勧告モデルのスケーリング法則:汎用的ユーザ表現を目指して
- Authors: Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Su Young Kim, Max Nihlen
Ramstrom
- Abstract要約: 広義のユーザエンコーダを大規模に訓練し,汎用的なユーザ表現学習の可能性を検討する。
本稿では,ユーザモデリング領域におけるスケーリングの法則について述べる。この法則では,トレーニングエラーが計算量とともにパワー則としてスケールする。
また,モデルキャパシティ,シーケンス長,バッチサイズなど,スケールアップ要因によるパフォーマンスの変化についても検討する。
- 参考スコア(独自算出の注目度): 3.3073775218038883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent trend shows that a general class of models, e.g., BERT, GPT-3, CLIP,
trained on broad data at scale have shown a great variety of functionalities
with a single learning architecture. In this work, we explore the possibility
of general-purpose user representation learning by training a universal user
encoder at large scales. We demonstrate that the scaling law holds in the user
modeling areas, where the training error scales as a power-law with the amount
of compute. Our Contrastive Learning User Encoder (CLUE), optimizes
task-agnostic objectives, and the resulting user embeddings stretches our
expectation of what is possible to do in various downstream tasks. CLUE also
shows great transferability to other domains and systems, as performances on an
online experiment shows significant improvements in online Click-Through-Rate
(CTR). Furthermore, we also investigate how the performance changes according
to the scale-up factors, i.e., model capacity, sequence length and batch size.
- Abstract(参考訳): 最近の傾向は、BERT、GPT-3、CLIPなどの一般的なモデルのクラスが、大規模に広いデータで訓練されていることが、単一の学習アーキテクチャで多くの機能を示していることを示している。
本研究では,ユニバーサルユーザエンコーダを大規模にトレーニングすることで,汎用ユーザ表現学習の可能性を検討する。
学習誤差が計算量とともにパワーローとしてスケールするユーザモデリング領域において,スケーリング法則が成立することを示す。
Contrastive Learning User Encoder (CLUE) はタスクに依存しない目的を最適化し、その結果のユーザ埋め込みは、さまざまなダウンストリームタスクで何ができるかという期待を拡張します。
CLUEは、オンライン実験のパフォーマンスがClick-Through-Rate (CTR)で大幅に改善されているため、他のドメインやシステムへの大きな転送可能性も示している。
さらに,スケールアップ要因,すなわちモデル容量,シーケンス長,バッチサイズによって性能がどう変化するかについても検討した。
関連論文リスト
- DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
モデルトレーニングを回避し、80の公開モデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - Learning Large-scale Universal User Representation with Sparse Mixture
of Experts [1.2722697496405464]
複数のタスクから高品質なユーザ表現を得るための汎用フレームワーク SUPERMOE を提案する。
具体的には、ユーザ動作シーケンスをMoE変換器で符号化することで、モデル容量を数十億のパラメータに増やすことができる。
複数のタスクにまたがる学習においてシーソー現象に対処するために,タスクインジケータを用いた新たな損失関数を設計する。
論文 参考訳(メタデータ) (2022-07-11T06:19:03Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。