Fugu-MT 論文翻訳(概要): Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later

論文の概要: Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later

arxiv url: http://arxiv.org/abs/2407.03257v2
Date: Mon, 03 Mar 2025 16:38:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:36.843993
Title: Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later
Title（参考訳）: 近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
Authors: Han-Jia Ye, Huai-Hong Yin, De-Chuan Zhan, Wei-Lun Chao,
Abstract要約: K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
参考スコア（独自算出の注目度）: 76.66498833720411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread enthusiasm for deep learning has recently expanded into the domain of tabular data. Recognizing that the advancement in deep tabular methods is often inspired by classical methods, e.g., integration of nearest neighbors into neural networks, we investigate whether these classical methods can be revitalized with modern techniques. We revisit a differentiable version of $K$-nearest neighbors (KNN) -- Neighbourhood Components Analysis (NCA) -- originally designed to learn a linear projection to capture semantic similarities between instances, and seek to gradually add modern deep learning techniques on top. Surprisingly, our implementation of NCA using SGD and without dimensionality reduction already achieves decent performance on tabular data, in contrast to the results of using existing toolboxes like scikit-learn. Further equipping NCA with deep representations and additional training stochasticity significantly enhances its capability, being on par with the leading tree-based method CatBoost and outperforming existing deep tabular models in both classification and regression tasks on 300 datasets. We conclude our paper by analyzing the factors behind these improvements, including loss functions, prediction strategies, and deep architectures. The code is available at https://github.com/qile2000/LAMDA-TALENT.
Abstract（参考訳）: ディープラーニングに対する幅広い熱意は、最近、表データの領域へと拡大した。深層表の手法の進歩は、ニューラルネットワークに近接する隣人の統合といった古典的手法にインスパイアされることが多いことを認識し、これらの古典的手法が近代的手法で再活性化できるかどうかを考察する。私たちは、K$-nearest neighbors (KNN) -- Neighbourhood Components Analysis (NCA) -- の差別化可能なバージョンを再検討します。意外なことに,SGD を用いた NCA の実装は,Scikit-learn のような既存のツールボックスを用いた結果とは対照的に,表型データ上での良好な性能を実現している。さらに、深い表現と追加のトレーニング確率性を備えたNAAは、主要なツリーベースのメソッドであるCatBoostと同等であり、300データセットの分類と回帰タスクの両方において、既存の深い表層モデルよりも優れている。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。コードはhttps://github.com/qile2000/LAMDA-TALENTで公開されている。

関連論文リスト

Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Enhancing binary classification: A new stacking method via leveraging computational geometry [5.906199156511947]
本稿では,計算幾何学的手法,特に最大重み付き矩形問題の解法を統合した新しいメタモデルを提案する。本手法は複数のオープンデータセットを用いて評価し,その安定性と精度の向上を示す統計解析を行った。本手法は, アンサンブル学習の積み重ねだけでなく, 病院の健康評価評価や銀行信用評価システムなど, 様々な実世界の応用にも応用できる。
論文参考訳（メタデータ） (2024-10-30T06:11:08Z)
Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文参考訳（メタデータ） (2024-10-06T15:25:39Z)
Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文参考訳（メタデータ） (2024-07-26T15:31:13Z)
A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文参考訳（メタデータ） (2024-07-01T04:24:07Z)
Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文参考訳（メタデータ） (2024-02-06T12:59:02Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文参考訳（メタデータ） (2022-06-30T14:24:32Z)
Making Look-Ahead Active Learning Strategies Feasible with Neural Tangent Kernels [6.372625755672473]
本稿では,仮説的ラベル付き候補データを用いた再学習に基づく,能動的学習獲得戦略の近似手法を提案する。通常、これはディープ・ネットワークでは実現できないが、我々はニューラル・タンジェント・カーネルを用いて再トレーニングの結果を近似する。
論文参考訳（メタデータ） (2022-06-25T06:13:27Z)
DANets: Deep Abstract Networks for Tabular Data Classification and Regression [9.295859461145783]
Abstract Layer (AbstLay)は、相関的な入力機能を明示的にグループ化し、セマンティクスの抽象化のための高レベルな機能を生成する。表形式のデータ分類と回帰のためのDeep Abstract Networks (DANets) のファミリー。
論文参考訳（メタデータ） (2021-12-06T12:15:28Z)
Empirical evaluation of shallow and deep learning classifiers for Arabic sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文参考訳（メタデータ） (2021-12-01T14:45:43Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文参考訳（メタデータ） (2021-03-09T14:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。