論文の概要: Probabilistic Hash Embeddings for Online Learning of Categorical Features
- arxiv url: http://arxiv.org/abs/2511.20893v2
- Date: Sun, 30 Nov 2025 06:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 13:32:07.506805
- Title: Probabilistic Hash Embeddings for Online Learning of Categorical Features
- Title(参考訳): カテゴリー特徴のオンライン学習のための確率論的ハッシュ埋め込み
- Authors: Aodong Li, Abishek Sankararaman, Balakrishnan Narayanaswamy,
- Abstract要約: 分類的特徴値の語彙が変化している分類的特徴を持つストリーミングデータについて検討する。
ハッシュは、これらのカテゴリの値を埋め込みを学ぶ前に、固定サイズの特徴空間にマッピングするために一般的に使用される。
決定論的埋め込みはカテゴリーの到着順序に敏感であり,オンライン学習では忘れられがちであることを示す。
- 参考スコア(独自算出の注目度): 15.264601005614145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study streaming data with categorical features where the vocabulary of categorical feature values is changing and can even grow unboundedly over time. Feature hashing is commonly used as a pre-processing step to map these categorical values into a feature space of fixed size before learning their embeddings. While these methods have been developed and evaluated for offline or batch settings, in this paper we consider online settings. We show that deterministic embeddings are sensitive to the arrival order of categories and suffer from forgetting in online learning, leading to performance deterioration. To mitigate this issue, we propose a probabilistic hash embedding (PHE) model that treats hash embeddings as stochastic and applies Bayesian online learning to learn incrementally from data. Based on the structure of PHE, we derive a scalable inference algorithm to learn model parameters and infer/update the posteriors of hash embeddings and other latent variables. Our algorithm (i) can handle an evolving vocabulary of categorical items, (ii) is adaptive to new items without forgetting old items, (iii) is implementable with a bounded set of parameters that does not grow with the number of distinct observed values on the stream, and (iv) is invariant to the item arrival order. Experiments in classification, sequence modeling, and recommendation systems in online learning setups demonstrate the superior performance of PHE while maintaining high memory efficiency (consumes as low as 2~4 memory of a one-hot embedding table). Supplementary materials are at https://github.com/aodongli/probabilistic-hash-embeddings
- Abstract(参考訳): 分類的特徴値の語彙が変化し,時間とともに非拘束的に成長することのできる分類的特徴を持つストリーミングデータについて検討する。
機能ハッシュは、これらのカテゴリ値を埋め込みを学ぶ前に、固定サイズの機能空間にマッピングする前処理のステップとして一般的に使用される。
これらの手法はオフラインやバッチ設定で開発・評価されているが,本論文ではオンライン設定について考察する。
決定論的埋め込みはカテゴリーの到着順序に敏感であり,オンライン学習を忘れることに苦しむことを示し,性能劣化を招いた。
この問題を軽減するため,確率的ハッシュ埋め込み(PHE)モデルを提案し,ハッシュ埋め込みを確率的に扱い,ベイズオンライン学習を用いてデータから漸進的に学習する。
PHEの構造に基づいて、モデルパラメータを学習し、ハッシュ埋め込みやその他の潜伏変数の後部を推論/更新するスケーラブルな推論アルゴリズムを導出する。
私たちのアルゴリズム
(i)分類項目の進化した語彙を扱うことができる。
(二)古品を忘れずに新品に適応する。
(iii) ストリーム上の異なる観測値の数で成長しない有界なパラメータセットで実装可能で、
(iv)はアイテムの到着順序に不変である。
オンライン学習システムにおける分類、シーケンスモデリング、レコメンデーションシステムの実験は、高いメモリ効率を維持しながらPHEの優れた性能を実証している。
補足材料はhttps://github.com/aodongli/probabilistic-hash-embeddingsにある。
関連論文リスト
- Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - ORFit: One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares [5.430441358049335]
本研究では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について検討する。
我々は,従来のデータポイントの予測を最小限に変更しつつ,各データポイントに完全に適合するワンパス学習アルゴリズムOrthogonal Recursive Fitting (ORFit)を提案する。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。
NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。
Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文 参考訳(メタデータ) (2022-01-31T16:19:02Z) - Deep Self-Adaptive Hashing for Image Retrieval [16.768754022585057]
2つの特殊設計で意味情報を適応的にキャプチャするtextbfDeep Self-Adaptive Hashing(DSAH)モデルを提案する。
まず,近辺型類似度行列を構築し,その初期類似度行列を新しい更新戦略で改良する。
第2に、PICを用いたデータペアの優先度を測定し、それらに適応重みを割り当てる。これは、より異種なデータペアがハッシュ学習のためのより差別的な情報を含んでいるという仮定に依存する。
論文 参考訳(メタデータ) (2021-08-16T13:53:20Z) - Scalable Optimal Classifiers for Adversarial Settings under Uncertainty [10.90668635921398]
本稿では,攻撃者に対して目的が不明な攻撃者がクラス-1データを生成する対角的設定において,最適な分類器を見つけることの問題点を考察する。
この低次元キャラクタリゼーションにより,ほぼほぼ最適な分類器をスケーラブルに計算する訓練手法が開発可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T13:33:53Z) - Fast Class-wise Updating for Online Hashing [196.14748396106955]
本稿では,FCOH(Fast Class-wise Updating for Online Hashing)と呼ばれる新しいオンラインハッシュ方式を提案する。
クラスワイズ更新法は、バイナリコード学習を分解し、代わりにクラスワイズ方式でハッシュ関数を更新する。
オンラインの効率をより高めるために,異なるバイナリ制約を独立に扱うことで,オンライントレーニングを高速化する半緩和最適化を提案する。
論文 参考訳(メタデータ) (2020-12-01T07:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。