論文の概要: Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later
- arxiv url: http://arxiv.org/abs/2407.03257v2
- Date: Mon, 03 Mar 2025 16:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:09:53.916320
- Title: Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later
- Title(参考訳): 近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
- Authors: Han-Jia Ye, Huai-Hong Yin, De-Chuan Zhan, Wei-Lun Chao,
- Abstract要約: K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。
意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
- 参考スコア(独自算出の注目度): 76.66498833720411
- License:
- Abstract: The widespread enthusiasm for deep learning has recently expanded into the domain of tabular data. Recognizing that the advancement in deep tabular methods is often inspired by classical methods, e.g., integration of nearest neighbors into neural networks, we investigate whether these classical methods can be revitalized with modern techniques. We revisit a differentiable version of $K$-nearest neighbors (KNN) -- Neighbourhood Components Analysis (NCA) -- originally designed to learn a linear projection to capture semantic similarities between instances, and seek to gradually add modern deep learning techniques on top. Surprisingly, our implementation of NCA using SGD and without dimensionality reduction already achieves decent performance on tabular data, in contrast to the results of using existing toolboxes like scikit-learn. Further equipping NCA with deep representations and additional training stochasticity significantly enhances its capability, being on par with the leading tree-based method CatBoost and outperforming existing deep tabular models in both classification and regression tasks on 300 datasets. We conclude our paper by analyzing the factors behind these improvements, including loss functions, prediction strategies, and deep architectures. The code is available at https://github.com/qile2000/LAMDA-TALENT.
- Abstract(参考訳): ディープラーニングに対する幅広い熱意は、最近、表データの領域へと拡大した。
深層表の手法の進歩は、ニューラルネットワークに近接する隣人の統合といった古典的手法にインスパイアされることが多いことを認識し、これらの古典的手法が近代的手法で再活性化できるかどうかを考察する。
私たちは、K$-nearest neighbors (KNN) -- Neighbourhood Components Analysis (NCA) -- の差別化可能なバージョンを再検討します。
意外なことに,SGD を用いた NCA の実装は,Scikit-learn のような既存のツールボックスを用いた結果とは対照的に,表型データ上での良好な性能を実現している。
さらに、深い表現と追加のトレーニング確率性を備えたNAAは、主要なツリーベースのメソッドであるCatBoostと同等であり、300データセットの分類と回帰タスクの両方において、既存の深い表層モデルよりも優れている。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
コードはhttps://github.com/qile2000/LAMDA-TALENTで公開されている。
関連論文リスト
- Enhancing binary classification: A new stacking method via leveraging computational geometry [5.906199156511947]
本稿では,計算幾何学的手法,特に最大重み付き矩形問題の解法を統合した新しいメタモデルを提案する。
本手法は複数のオープンデータセットを用いて評価し,その安定性と精度の向上を示す統計解析を行った。
本手法は, アンサンブル学習の積み重ねだけでなく, 病院の健康評価評価や銀行信用評価システムなど, 様々な実世界の応用にも応用できる。
論文 参考訳(メタデータ) (2024-10-30T06:11:08Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。
我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文 参考訳(メタデータ) (2024-07-26T15:31:13Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。
データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。
本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文 参考訳(メタデータ) (2024-02-06T12:59:02Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Making Look-Ahead Active Learning Strategies Feasible with Neural
Tangent Kernels [6.372625755672473]
本稿では,仮説的ラベル付き候補データを用いた再学習に基づく,能動的学習獲得戦略の近似手法を提案する。
通常、これはディープ・ネットワークでは実現できないが、我々はニューラル・タンジェント・カーネルを用いて再トレーニングの結果を近似する。
論文 参考訳(メタデータ) (2022-06-25T06:13:27Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。