論文の概要: TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning
- arxiv url: http://arxiv.org/abs/2307.14338v1
- Date: Wed, 26 Jul 2023 17:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:32:41.476337
- Title: TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning
- Title(参考訳): TabR: 検索機能強化された語彙深層学習のパワーを解き放つ
- Authors: Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii,
Akim Kotelnikov, Artem Babenko
- Abstract要約: 近年,グラフデータの深層学習問題に対する検索モデルが提案されている。
既存の検索ベースソリューションは、適切に調整された単純な検索不要のベースラインに対して、マイナーな利点しか提供していないことを示す。
本研究は,注目型検索コンポーネントを備えた単純なフィードフォワードアーキテクチャを漸進的に拡張することで,この問題に対して強い肯定的な回答を与える。
- 参考スコア(独自算出の注目度): 18.562089424242842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models for tabular data problems are receiving
increasingly more attention, while the algorithms based on gradient-boosted
decision trees (GBDT) remain a strong go-to solution. Following the recent
trends in other domains, such as natural language processing and computer
vision, several retrieval-augmented tabular DL models have been recently
proposed. For a given target object, a retrieval-based model retrieves other
relevant objects, such as the nearest neighbors, from the available (training)
data and uses their features or even labels to make a better prediction.
However, we show that the existing retrieval-based tabular DL solutions provide
only minor, if any, benefits over the properly tuned simple retrieval-free
baselines. Thus, it remains unclear whether the retrieval-based approach is a
worthy direction for tabular DL.
In this work, we give a strong positive answer to this question. We start by
incrementally augmenting a simple feed-forward architecture with an
attention-like retrieval component similar to those of many (tabular)
retrieval-based models. Then, we highlight several details of the attention
mechanism that turn out to have a massive impact on the performance on tabular
data problems, but that were not explored in prior work. As a result, we design
TabR -- a simple retrieval-based tabular DL model which, on a set of public
benchmarks, demonstrates the best average performance among tabular DL models,
becomes the new state-of-the-art on several datasets, and even outperforms GBDT
models on the recently proposed ``GBDT-friendly'' benchmark (see the first
figure).
- Abstract(参考訳): グラフデータ問題に対するディープラーニング(DL)モデルはますます注目を集めている一方、勾配ブースト決定木(GBDT)に基づくアルゴリズムは依然として強力なゴーツーソリューションである。
自然言語処理やコンピュータビジョンといった他の領域の最近のトレンドに続き、検索拡張表型DLモデルが最近提案されている。
与えられた対象オブジェクトに対して、検索ベースモデルは、利用可能な(トレーニング)データから、最も近い隣接オブジェクトなどの他の関連オブジェクトを検索し、それらの特徴やラベルを使用してより良い予測を行う。
しかし,既存の検索ベースの表型DLソリューションは,適切に調整された単純な検索自由ベースラインよりも,マイナーなメリットしか得られないことがわかった。
したがって、検索に基づくアプローチが表型DLにとって価値のある方向であるかどうかは不明である。
本論では,この問題に対して強い肯定的な回答を与える。
まず,単純なフィードフォワードアーキテクチャを,多くの(表型)検索ベースモデルと同様の注意深い検索コンポーネントで段階的に拡張することから始める。
次に,表データ問題に対する性能に大きな影響を与える注意機構について,いくつかの詳細を強調するが,先行研究では検討されなかった。
その結果、TabRは単純な検索ベースの表型DLモデルであり、一連の公開ベンチマークにおいて、表型DLモデルの中で最高の平均性能を示し、複数のデータセットで新しい最先端技術となり、最近提案された‘GBDTフレンドリ’ベンチマークではGBDTモデルよりも優れています(第1図参照)。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。
我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。
このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-27T06:58:52Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Revisiting Deep Learning Models for Tabular Data [40.67427600770095]
研究者と実践者の両方にとって、どのモデルが優れているかは定かではない。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T17:58:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。