論文の概要: TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning
- arxiv url: http://arxiv.org/abs/2307.14338v1
- Date: Wed, 26 Jul 2023 17:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:32:41.476337
- Title: TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning
- Title(参考訳): TabR: 検索機能強化された語彙深層学習のパワーを解き放つ
- Authors: Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii,
Akim Kotelnikov, Artem Babenko
- Abstract要約: 近年,グラフデータの深層学習問題に対する検索モデルが提案されている。
既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。
本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
- 参考スコア(独自算出の注目度): 18.562089424242842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models for tabular data problems are receiving
increasingly more attention, while the algorithms based on gradient-boosted
decision trees (GBDT) remain a strong go-to solution. Following the recent
trends in other domains, such as natural language processing and computer
vision, several retrieval-augmented tabular DL models have been recently
proposed. For a given target object, a retrieval-based model retrieves other
relevant objects, such as the nearest neighbors, from the available (training)
data and uses their features or even labels to make a better prediction.
However, we show that the existing retrieval-based tabular DL solutions provide
only minor, if any, benefits over the properly tuned simple retrieval-free
baselines. Thus, it remains unclear whether the retrieval-based approach is a
worthy direction for tabular DL.
In this work, we give a strong positive answer to this question. We start by
incrementally augmenting a simple feed-forward architecture with an
attention-like retrieval component similar to those of many (tabular)
retrieval-based models. Then, we highlight several details of the attention
mechanism that turn out to have a massive impact on the performance on tabular
data problems, but that were not explored in prior work. As a result, we design
TabR -- a simple retrieval-based tabular DL model which, on a set of public
benchmarks, demonstrates the best average performance among tabular DL models,
becomes the new state-of-the-art on several datasets, and even outperforms GBDT
models on the recently proposed ``GBDT-friendly'' benchmark (see the first
figure).
- Abstract(参考訳): グラフデータ問題に対するディープラーニング(DL)モデルはますます注目を集めている一方、勾配ブースト決定木(GBDT)に基づくアルゴリズムは依然として強力なゴーツーソリューションである。
自然言語処理やコンピュータビジョンといった他の領域の最近のトレンドに続き、検索拡張表型DLモデルが最近提案されている。
与えられた対象オブジェクトに対して、検索ベースモデルは、利用可能な(トレーニング)データから、最も近い隣接オブジェクトなどの他の関連オブジェクトを検索し、それらの特徴やラベルを使用してより良い予測を行う。
しかし,既存の検索ベースの表型DLソリューションは,適切に調整された単純な検索自由ベースラインよりも,マイナーなメリットしか得られないことがわかった。
したがって、検索に基づくアプローチが表型DLにとって価値のある方向であるかどうかは不明である。
本論では,この問題に対して強い肯定的な回答を与える。
まず,単純なフィードフォワードアーキテクチャを,多くの(表型)検索ベースモデルと同様の注意深い検索コンポーネントで段階的に拡張することから始める。
次に,表データ問題に対する性能に大きな影響を与える注意機構について,いくつかの詳細を強調するが,先行研究では検討されなかった。
その結果、TabRは単純な検索ベースの表型DLモデルであり、一連の公開ベンチマークにおいて、表型DLモデルの中で最高の平均性能を示し、複数のデータセットで新しい最先端技術となり、最近提案された‘GBDTフレンドリ’ベンチマークではGBDTモデルよりも優れています(第1図参照)。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Pretrained deep models outperform GBDTs in Learning-To-Rank under label
scarcity [23.466336455644402]
タブラルデータにはラベルなしデータが多く、ラベル付きデータが不足している。
DLローカは、教師なし事前学習を利用して、ラベルのないデータを活用できることが示される。
パブリックデータセットとプロプライエタリデータセットの両方を対象とした実験では、事前訓練されたDLランキングが、ランキングメトリクスでGBDTランキングを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-31T22:19:45Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [67.47573557280467]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Revisiting Deep Learning Models for Tabular Data [40.67427600770095]
研究者と実践者の両方にとって、どのモデルが優れているかは定かではない。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T17:58:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。