論文の概要: Efficient Representations for High-Cardinality Categorical Variables in Machine Learning
- arxiv url: http://arxiv.org/abs/2501.05646v1
- Date: Fri, 10 Jan 2025 01:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:14.915253
- Title: Efficient Representations for High-Cardinality Categorical Variables in Machine Learning
- Title(参考訳): 機械学習における高次カテゴリー変数の効率的な表現法
- Authors: Zixuan Liang,
- Abstract要約: ハイカーディナリティのカテゴリ変数は、機械学習において重大な課題を生じさせる。
伝統的なワンホット符号化は、しばしば高次元のスパース特徴空間をもたらす。
本稿では,平均符号化,低ランク符号化,多項ロジスティック回帰符号化など,新しい符号化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High\-cardinality categorical variables pose significant challenges in machine learning, particularly in terms of computational efficiency and model interpretability. Traditional one\-hot encoding often results in high\-dimensional sparse feature spaces, increasing the risk of overfitting and reducing scalability. This paper introduces novel encoding techniques, including means encoding, low\-rank encoding, and multinomial logistic regression encoding, to address these challenges. These methods leverage sufficient representations to generate compact and informative embeddings of categorical data. We conduct rigorous theoretical analyses and empirical validations on diverse datasets, demonstrating significant improvements in model performance and computational efficiency compared to baseline methods. The proposed techniques are particularly effective in domains requiring scalable solutions for large datasets, paving the way for more robust and efficient applications in machine learning.
- Abstract(参考訳): 高い心臓のカテゴリー変数は、特に計算効率とモデル解釈可能性の観点から、機械学習において重大な課題を提起する。
従来のワンホット符号化は、しばしば高次元のスパースな特徴空間をもたらし、過度な適合とスケーラビリティの低下のリスクを増大させる。
本稿では,これらの課題に対処するために,エンコーディング,低ランクエンコーディング,多項ロジスティックレグレッションエンコーディングなど,新しいエンコーディング手法を提案する。
これらの手法は、分類データのコンパクトで情報的な埋め込みを生成するのに十分な表現を利用する。
本研究では,多種多様なデータセットに対する厳密な理論的解析と実証的検証を行い,ベースライン法と比較してモデル性能と計算効率が著しく向上したことを示す。
提案手法は大規模データセットに対してスケーラブルなソリューションを必要とする領域において特に有効であり、機械学習におけるより堅牢で効率的なアプリケーションへの道を開く。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Contextual Reinforcement in Multimodal Token Compression for Large Language Models [0.0]
トークン圧縮は、ますます複雑で多様なデータセットを扱うためにモデルをスケーリングする上で、依然として重要な課題である。
相互依存や意味的関連性を通じてトークンの重要度を動的に調整する,コンテキスト強化に基づく新しいメカニズムを導入する。
このアプローチは,情報表現の品質と一貫性を維持しつつ,トークン使用量の大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-01-28T02:44:31Z) - Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。
我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文 参考訳(メタデータ) (2024-05-20T00:10:00Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Hybridization of Capsule and LSTM Networks for unsupervised anomaly
detection on multivariate data [0.0]
本稿では,Long-Short-Term-Memory(LSTM)とCapsule Networksを1つのネットワークに結合した新しいNNアーキテクチャを提案する。
提案手法は教師なし学習手法を用いて大量のラベル付きトレーニングデータを見つける際の問題を克服する。
論文 参考訳(メタデータ) (2022-02-11T10:33:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Learning Generalized Relational Heuristic Networks for Model-Agnostic
Planning [29.714818991696088]
本稿では,記号的行動モデルが存在しない場合の一般化を学習するための新しいアプローチを開発する。
データの効率的で一般化可能な学習を容易にするために、抽象状態表現を使用する。
論文 参考訳(メタデータ) (2020-07-10T06:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。