論文の概要: Embeddings for Tabular Data: A Survey
- arxiv url: http://arxiv.org/abs/2302.11777v1
- Date: Thu, 23 Feb 2023 04:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:19:02.253488
- Title: Embeddings for Tabular Data: A Survey
- Title(参考訳): 表データのための埋め込み:調査
- Authors: Rajat Singh, Srikanta Bedathur
- Abstract要約: タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
- 参考スコア(独自算出の注目度): 8.010589283146222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data comprising rows (samples) with the same set of columns
(attributes, is one of the most widely used data-type among various industries,
including financial services, health care, research, retail, and logistics, to
name a few. Tables are becoming the natural way of storing data among various
industries and academia. The data stored in these tables serve as an essential
source of information for making various decisions. As computational power and
internet connectivity increase, the data stored by these companies grow
exponentially, and not only do the databases become vast and challenging to
maintain and operate, but the quantity of database tasks also increases. Thus a
new line of research work has been started, which applies various learning
techniques to support various database tasks for such large and complex tables.
In this work, we split the quest of learning on tabular data into two phases:
The Classical Learning Phase and The Modern Machine Learning Phase. The
classical learning phase consists of the models such as SVMs, linear and
logistic regression, and tree-based methods. These models are best suited for
small-size tables. However, the number of tasks these models can address is
limited to classification and regression. In contrast, the Modern Machine
Learning Phase contains models that use deep learning for learning latent space
representation of table entities. The objective of this survey is to scrutinize
the varied approaches used by practitioners to learn representation for the
structured data, and to compare their efficacy.
- Abstract(参考訳): 同じ列(属性)を持つ行(サンプル)からなるタブラルデータは、金融サービス、医療、研究、小売、物流など、様々な産業において最も広く使われているデータタイプの一つである。
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
これらのテーブルに格納されたデータは、様々な決定を行うための重要な情報源となる。
計算能力とインターネット接続が増大するにつれて、これらの企業が蓄積するデータは指数関数的に増加し、データベースが大規模になり、保守と運用が困難になるだけでなく、データベースタスクの量も増加する。
このようにして、様々な学習手法を応用して、大規模で複雑なテーブルのための様々なデータベースタスクを支援する新しい研究ラインが始められた。
本研究では,表データ学習の課題を,古典的学習段階と現代的機械学習段階の2段階に分けた。
古典的学習段階は、svm、線形回帰およびロジスティック回帰、および木に基づく手法などのモデルで構成されている。
これらのモデルは小型のテーブルに適している。
しかしながら、これらのモデルが対応できるタスクの数は分類と回帰に限られる。
対照的に、Modern Machine Learning Phaseには、ディープラーニングを使用してテーブルエンティティの潜在空間表現を学習するモデルが含まれている。
本調査の目的は,構造化データの表現を学習するために実践者が用いる様々なアプローチを精査し,その効果を比較することである。
関連論文リスト
- PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - MambaTab: A Plug-and-Play Model for Learning Tabular Data [13.110156202816112]
本研究は,表データに対する構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを導入する。
MambaTabは、さまざまなベンチマークデータセットで実証的に検証されるように、パラメータを著しく少なくしながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-16T22:44:12Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。