論文の概要: TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023
- arxiv url: http://arxiv.org/abs/2307.14338v2
- Date: Thu, 26 Oct 2023 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 04:50:16.173567
- Title: TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023
- Title(参考訳): TabR:2023年で最も隣人に近いのはタブラルディープラーニング
- Authors: Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii,
Akim Kotelnikov, Artem Babenko
- Abstract要約: TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。
はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
- 参考スコア(独自算出の注目度): 33.70333110327871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models for tabular data problems (e.g. classification,
regression) are currently receiving increasingly more attention from
researchers. However, despite the recent efforts, the non-DL algorithms based
on gradient-boosted decision trees (GBDT) remain a strong go-to solution for
these problems. One of the research directions aimed at improving the position
of tabular DL involves designing so-called retrieval-augmented models. For a
target object, such models retrieve other objects (e.g. the nearest neighbors)
from the available training data and use their features and labels to make a
better prediction.
In this work, we present TabR -- essentially, a feed-forward network with a
custom k-Nearest-Neighbors-like component in the middle. On a set of public
benchmarks with datasets up to several million objects, TabR marks a big step
forward for tabular DL: it demonstrates the best average performance among
tabular DL models, becomes the new state-of-the-art on several datasets, and
even outperforms GBDT models on the recently proposed "GBDT-friendly" benchmark
(see Figure 1). Among the important findings and technical details powering
TabR, the main ones lie in the attention-like mechanism that is responsible for
retrieving the nearest neighbors and extracting valuable signal from them. In
addition to the much higher performance, TabR is simple and significantly more
efficient compared to prior retrieval-based tabular DL models.
- Abstract(参考訳): 表型データ問題(分類、回帰など)のためのディープラーニング(dl)モデルは、研究者からますます注目を集めている。
しかし、最近の取り組みにもかかわらず、勾配ブースト決定木(gbdt)に基づく非dlアルゴリズムは、これらの問題に対する強力な解決策である。
表型dlの位置を改善するための研究方向の一つは、いわゆる検索型モデルの設計である。
対象オブジェクトに対して、そのようなモデルは利用可能なトレーニングデータから他のオブジェクト(例えば、近隣のオブジェクト)を検索し、それらの特徴とラベルを使ってより良い予測を行う。
この作業では、TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
列挙型DLモデルの中で最高の平均パフォーマンスを示し、いくつかのデータセットで新しい最先端技術となり、最近提案された"GBDTフレンドリ"ベンチマークではGBDTモデルよりも優れています(図1参照)。
TabRを駆動する重要な発見と技術的な詳細のうち、主なものは、近くの隣人を回収し、それらから貴重な信号を抽出する、注意のようなメカニズムにある。
高いパフォーマンスに加えて、TabRは従来の検索ベースの表型DLモデルに比べてシンプルではるかに効率的である。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Pretrained deep models outperform GBDTs in Learning-To-Rank under label
scarcity [23.466336455644402]
タブラルデータにはラベルなしデータが多く、ラベル付きデータが不足している。
DLローカは、教師なし事前学習を利用して、ラベルのないデータを活用できることが示される。
パブリックデータセットとプロプライエタリデータセットの両方を対象とした実験では、事前訓練されたDLランキングが、ランキングメトリクスでGBDTランキングを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-31T22:19:45Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [67.47573557280467]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Revisiting Deep Learning Models for Tabular Data [40.67427600770095]
研究者と実践者の両方にとって、どのモデルが優れているかは定かではない。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T17:58:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。