論文の概要: TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023
- arxiv url: http://arxiv.org/abs/2307.14338v2
- Date: Thu, 26 Oct 2023 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 04:50:16.173567
- Title: TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023
- Title(参考訳): TabR:2023年で最も隣人に近いのはタブラルディープラーニング
- Authors: Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii,
Akim Kotelnikov, Artem Babenko
- Abstract要約: TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。
はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
- 参考スコア(独自算出の注目度): 33.70333110327871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models for tabular data problems (e.g. classification,
regression) are currently receiving increasingly more attention from
researchers. However, despite the recent efforts, the non-DL algorithms based
on gradient-boosted decision trees (GBDT) remain a strong go-to solution for
these problems. One of the research directions aimed at improving the position
of tabular DL involves designing so-called retrieval-augmented models. For a
target object, such models retrieve other objects (e.g. the nearest neighbors)
from the available training data and use their features and labels to make a
better prediction.
In this work, we present TabR -- essentially, a feed-forward network with a
custom k-Nearest-Neighbors-like component in the middle. On a set of public
benchmarks with datasets up to several million objects, TabR marks a big step
forward for tabular DL: it demonstrates the best average performance among
tabular DL models, becomes the new state-of-the-art on several datasets, and
even outperforms GBDT models on the recently proposed "GBDT-friendly" benchmark
(see Figure 1). Among the important findings and technical details powering
TabR, the main ones lie in the attention-like mechanism that is responsible for
retrieving the nearest neighbors and extracting valuable signal from them. In
addition to the much higher performance, TabR is simple and significantly more
efficient compared to prior retrieval-based tabular DL models.
- Abstract(参考訳): 表型データ問題(分類、回帰など)のためのディープラーニング(dl)モデルは、研究者からますます注目を集めている。
しかし、最近の取り組みにもかかわらず、勾配ブースト決定木(gbdt)に基づく非dlアルゴリズムは、これらの問題に対する強力な解決策である。
表型dlの位置を改善するための研究方向の一つは、いわゆる検索型モデルの設計である。
対象オブジェクトに対して、そのようなモデルは利用可能なトレーニングデータから他のオブジェクト(例えば、近隣のオブジェクト)を検索し、それらの特徴とラベルを使ってより良い予測を行う。
この作業では、TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
列挙型DLモデルの中で最高の平均パフォーマンスを示し、いくつかのデータセットで新しい最先端技術となり、最近提案された"GBDTフレンドリ"ベンチマークではGBDTモデルよりも優れています(図1参照)。
TabRを駆動する重要な発見と技術的な詳細のうち、主なものは、近くの隣人を回収し、それらから貴重な信号を抽出する、注意のようなメカニズムにある。
高いパフォーマンスに加えて、TabRは従来の検索ベースの表型DLモデルに比べてシンプルではるかに効率的である。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。
我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。
このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-27T06:58:52Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Revisiting Deep Learning Models for Tabular Data [40.67427600770095]
研究者と実践者の両方にとって、どのモデルが優れているかは定かではない。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T17:58:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。