論文の概要: Unified Embedding: Battle-Tested Feature Representations for Web-Scale
ML Systems
- arxiv url: http://arxiv.org/abs/2305.12102v3
- Date: Wed, 15 Nov 2023 00:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:39:02.802640
- Title: Unified Embedding: Battle-Tested Feature Representations for Web-Scale
ML Systems
- Title(参考訳): Unified Embedding: WebスケールMLシステムのためのバトルテスト機能表現
- Authors: Benjamin Coleman, Wang-Cheng Kang, Matthew Fahrbach, Ruoxi Wang,
Lichan Hong, Ed H. Chi, Derek Zhiyuan Cheng
- Abstract要約: 高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
機能構成の簡略化,動的データ分散への適応性の向上,最新のハードウェアとの互換性の3つの大きなメリットを生かした,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 29.53535556926066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning high-quality feature embeddings efficiently and effectively is
critical for the performance of web-scale machine learning systems. A typical
model ingests hundreds of features with vocabularies on the order of millions
to billions of tokens. The standard approach is to represent each feature value
as a d-dimensional embedding, introducing hundreds of billions of parameters
for extremely high-cardinality features. This bottleneck has led to substantial
progress in alternative embedding algorithms. Many of these methods, however,
make the assumption that each feature uses an independent embedding table. This
work introduces a simple yet highly effective framework, Feature Multiplexing,
where one single representation space is used across many different categorical
features. Our theoretical and empirical analysis reveals that multiplexed
embeddings can be decomposed into components from each constituent feature,
allowing models to distinguish between features. We show that multiplexed
representations lead to Pareto-optimal parameter-accuracy tradeoffs for three
public benchmark datasets. Further, we propose a highly practical approach
called Unified Embedding with three major benefits: simplified feature
configuration, strong adaptation to dynamic data distributions, and
compatibility with modern hardware. Unified embedding gives significant
improvements in offline and online metrics compared to highly competitive
baselines across five web-scale search, ads, and recommender systems, where it
serves billions of users across the world in industry-leading products.
- Abstract(参考訳): 高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
典型的なモデルは、数百万から数十億のトークンの順番で語彙を持つ何百もの機能を取り込みます。
標準的なアプローチは、各特徴値をD次元埋め込みとして表現し、非常に高い心的特徴に対して数十億のパラメータを導入することである。
このボトルネックにより、代替埋め込みアルゴリズムが大幅に進歩した。
しかし、これらの手法の多くは、各特徴が独立した埋め込みテーブルを使用すると仮定している。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
我々の理論的および経験的分析により、多重埋め込みは各構成要素の特徴から構成要素に分解でき、モデルが特徴を区別できることがわかった。
多重表現は3つの公開ベンチマークデータセットに対してパレート最適パラメータ精度トレードオフをもたらすことを示す。
さらに,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。機能構成の簡略化,動的データ分散への強力な適応,最新のハードウェアとの互換性である。
統一埋め込みは、オフラインとオンラインの指標において、5つのウェブスケールの検索、広告、レコメンデーションシステムで競争の激しいベースラインと比較して大きな改善をもたらす。
関連論文リスト
- Fuss-Free Network: A Simplified and Efficient Neural Network for Crowd Counting [5.125530969984795]
本稿では,Fuss-Free Network(FFNet)について紹介する。
提案したクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2024-04-11T15:42:53Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Mapping the Internet: Modelling Entity Interactions in Complex
Heterogeneous Networks [0.0]
サンプル表現、モデル定義、トレーニングのための汎用性のある統一フレームワークHMill'を提案します。
フレームワークに実装されたモデルによって実現されたすべての関数の集合に対する普遍近似定理の拡張を示す。
このフレームワークを使ってサイバーセキュリティドメインから3つの異なる問題を解決する。
論文 参考訳(メタデータ) (2021-04-19T21:32:44Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。