論文の概要: Linear Dimensionality Reduction for Word Embeddings in Tabular Data Classification
- arxiv url: http://arxiv.org/abs/2509.12346v1
- Date: Mon, 15 Sep 2025 18:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.713919
- Title: Linear Dimensionality Reduction for Word Embeddings in Tabular Data Classification
- Title(参考訳): 語彙データ分類における単語埋め込みの線形次元化
- Authors: Liam Ressel, Hamza A. A. Gardi,
- Abstract要約: 本稿では,主成分分析(PCA)と線形識別分析(LDA)について述べる。
適切な部分空間次元を持つPCAは、生の埋め込みよりも優れていることを示す。
埋め込みを等サイズのブロックに分割し,それぞれにLDAを個別に実行し,共分散行列のサイズを小さくする分割型LDAを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Engineers' Salary Prediction Challenge requires classifying salary categories into three classes based on tabular data. The job description is represented as a 300-dimensional word embedding incorporated into the tabular features, drastically increasing dimensionality. Additionally, the limited number of training samples makes classification challenging. Linear dimensionality reduction of word embeddings for tabular data classification remains underexplored. This paper studies Principal Component Analysis (PCA) and Linear Discriminant Analysis (LDA). We show that PCA, with an appropriate subspace dimension, can outperform raw embeddings. LDA without regularization performs poorly due to covariance estimation errors, but applying shrinkage improves performance significantly, even with only two dimensions. We propose Partitioned-LDA, which splits embeddings into equal-sized blocks and performs LDA separately on each, thereby reducing the size of the covariance matrices. Partitioned-LDA outperforms regular LDA and, combined with shrinkage, achieves top-10 accuracy on the competition public leaderboard. This method effectively enhances word embedding performance in tabular data classification with limited training samples.
- Abstract(参考訳): 技術者の給与予測チャレンジでは、給与カテゴリーを表のデータに基づいて3つのクラスに分類する必要がある。
ジョブ記述は、表特徴に組み込まれた300次元の単語として表現され、次元が劇的に増大する。
さらに、トレーニングサンプルの数が限られているため、分類が困難になる。
表層データ分類のための単語埋め込みの線形次元削減については,まだ未検討である。
本稿では,主成分分析(PCA)と線形識別分析(LDA)について検討する。
適切な部分空間次元を持つPCAは、生の埋め込みよりも優れていることを示す。
正則化のないLDAは共分散推定誤差により性能が劣るが、縮小の適用は2次元に留まらず、性能を著しく向上させる。
埋め込みを等サイズのブロックに分割し,それぞれにLDAを個別に実行し,共分散行列のサイズを小さくする分割型LDAを提案する。
分割LDAは通常のLDAよりも優れており、縮小と組み合わせて、競争のリーダーボード上でトップ10の精度を達成する。
この方法は,限られた学習サンプルを用いた表型データ分類における単語埋め込み性能を効果的に向上させる。
関連論文リスト
- Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Minimally Informed Linear Discriminant Analysis: training an LDA model
with unlabelled data [51.673443581397954]
本研究では,LDAモデルからの正確な射影ベクトルを,ラベルのないデータに基づいて計算可能であることを示す。
MILDA投影ベクトルはLDAに匹敵する計算コストで閉じた形で計算可能であることを示す。
論文 参考訳(メタデータ) (2023-10-17T09:50:31Z) - Introducing Block-Toeplitz Covariance Matrices to Remaster Linear
Discriminant Analysis for Event-related Potential Brain-computer Interfaces [0.0]
ToeplitzLDAは、各チャネルのショートタイムウィンドウにおける信号定常性の仮定を実装している。
結果:ToeplitzLDAは縮小正規化LDAに比べてバイナリ分類性能が有意に向上した。
また、ToeplitzLDAは20倍の時間次元拡大に対してもほとんど不変である。
論文 参考訳(メタデータ) (2022-02-04T07:18:43Z) - Divide-and-Conquer Hard-thresholding Rules in High-dimensional
Imbalanced Classification [1.0312968200748118]
高次元の線形判別分析(LDA)における不均衡クラスサイズの影響について検討した。
マイノリティ・クラスと呼ばれる1つのクラスのデータの不足により、LDAはマイノリティ・クラスを無視し、最大誤分類率を得ることを示す。
そこで本研究では,不等式化率の大きな差を低減させる分割・対数法に基づくハードコンカレンスルールの新たな構成法を提案する。
論文 参考訳(メタデータ) (2021-11-05T07:44:28Z) - Self-Weighted Robust LDA for Multiclass Classification with Edge Classes [111.5515086563592]
SWRLDAと呼ばれる,l21ノルムを基準とした新しい自己重み付き頑健なLDAを提案する。
提案するSWRLDAは実装が容易で,実際に高速に収束する。
論文 参考訳(メタデータ) (2020-09-24T12:32:55Z) - Supervised dimensionality reduction by a Linear Discriminant Analysis on
pre-trained CNN features [0.0]
我々は、事前訓練された深部畳み込みニューラルネットワーク(CNN)の異なる層で得られた特徴に対する線形判別分析(LDA)の適用について検討する。
CNNの機能に適用されたLDAは、類似したデータに対応するクラスのセントロイドが、異なるデータに対応するクラスよりも近いことを発見した。
論文 参考訳(メタデータ) (2020-06-22T10:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。