論文の概要: 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs
- arxiv url: http://arxiv.org/abs/2404.18209v1
- Date: Sun, 28 Apr 2024 15:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:35:41.208580
- Title: 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs
- Title(参考訳): 4DBInfer:リレーショナルDBのグラフ中心予測モデリングのための4Dベンチマークツールボックス
- Authors: Minjie Wang, Quan Gan, David Wipf, Zhenkun Cai, Ning Li, Jianheng Tang, Yanlin Zhang, Zizhao Zhang, Zunyao Mao, Yakun Song, Yanbo Wang, Jiahang Li, Han Zhang, Guang Yang, Xiao Qin, Chuan Lei, Muhan Zhang, Weinan Zhang, Christos Faloutsos, Zheng Zhang,
- Abstract要約: RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
- 参考スコア(独自算出の注目度): 67.47600679176963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although RDBs store vast amounts of rich, informative data spread across interconnected tables, the progress of predictive machine learning models as applied to such tasks arguably falls well behind advances in other domains such as computer vision or natural language processing. This deficit stems, at least in part, from the lack of established/public RDB benchmarks as needed for training and evaluation purposes. As a result, related model development thus far often defaults to tabular approaches trained on ubiquitous single-table benchmarks, or on the relational side, graph-based alternatives such as GNNs applied to a completely different set of graph datasets devoid of tabular characteristics. To more precisely target RDBs lying at the nexus of these two complementary regimes, we explore a broad class of baseline models predicated on: (i) converting multi-table datasets into graphs using various strategies equipped with efficient subsampling, while preserving tabular characteristics; and (ii) trainable models with well-matched inductive biases that output predictions based on these input subgraphs. Then, to address the dearth of suitable public benchmarks and reduce siloed comparisons, we assemble a diverse collection of (i) large-scale RDB datasets and (ii) coincident predictive tasks. From a delivery standpoint, we operationalize the above four dimensions (4D) of exploration within a unified, scalable open-source toolbox called 4DBInfer. We conclude by presenting evaluations using 4DBInfer, the results of which highlight the importance of considering each such dimension in the design of RDB predictive models, as well as the limitations of more naive approaches such as simply joining adjacent tables. Our source code is released at https://github.com/awslabs/multi-table-benchmark .
- Abstract(参考訳): RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納するが、そのようなタスクに適用される予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に大きく遅れている。
この欠陥は、少なくとも部分的には、トレーニングと評価のために必要となる確立された、パブリックなRDBベンチマークの欠如に起因する。
結果として、関連するモデル開発は、ユビキタスなシングルテーブルベンチマーク、あるいはリレーショナルな側面において、グラフベースの代替品であるGNNが、表の特性を欠いた全く異なるグラフデータセットに適用されることが多い。
これら2つの相補的レギュレーションの頂点にあるRDBをより正確に標的にするため、我々は以下のベースラインモデルの幅広いクラスを探索する。
一 表の特徴を保ちながら、効率的なサブサンプリングを備えた各種戦略を用いて、多テーブルデータセットをグラフに変換すること。
(2)これらの入力部分グラフに基づいて予測を出力する、よく整合した帰納バイアスを持つ訓練可能なモデル。
そして、適切な公開ベンチマークの劣化に対処し、サイロ化比較を減らすために、多様なコレクションを組み立てる。
(i)大規模RDBデータセットおよび
(ii)偶然な予測タスク。
デリバリの観点からは、4DBInferと呼ばれる統一されたスケーラブルなオープンソースツールボックス内で、上記の4次元(4D)の探索を運用しています。
その結果、RDB予測モデルの設計において、各次元を考慮することの重要性と、隣接するテーブルを単に結合するといったより単純なアプローチの限界を強調した。
ソースコードはhttps://github.com/awslabs/multi-table-benchmarkで公開されています。
関連論文リスト
- Novel Representation Learning Technique using Graphs for Performance
Analytics [0.0]
本稿では,グラフニューラルネットワーク(GNN)技術の進歩を活用するために,パフォーマンスデータをグラフに変換する新しいアイデアを提案する。
ソーシャルネットワークのような他の機械学習アプリケーションドメインとは対照的に、グラフは提供されない。
我々は,GNNから生成された埋め込みの有効性を,単純なフィードフォワードニューラルネットワークによる回帰処理の性能評価に基づいて評価した。
論文 参考訳(メタデータ) (2024-01-19T16:34:37Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023 [33.70333110327871]
TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。
はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
論文 参考訳(メタデータ) (2023-07-26T17:58:07Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - TabGNN: Multiplex Graph Neural Network for Tabular Data Prediction [43.35301059378836]
最近普及しているグラフニューラルネットワーク(GNN)に基づく新しいフレームワークTabGNNを提案する。
具体的には,まず,多面的サンプル関係をモデル化するための多重グラフを構築し,次に,各サンプルに対する拡張表現を学習するための多重グラフニューラルネットワークを設計する。
分類と回帰を含む11のTDPデータセットに対する実験は、TabGNNが一貫して性能を向上できることを示している。
論文 参考訳(メタデータ) (2021-08-20T11:51:32Z) - ARM-Net: Adaptive Relation Modeling Network for Structured Data [29.94433633729326]
ARM-Netは、構造化データに適した適応関係モデリングネットワークであり、リレーショナルデータのためのARM-Netに基づく軽量フレームワークARMORである。
ARM-Netは既存のモデルより一貫して優れており、データセットに対してより解釈可能な予測を提供する。
論文 参考訳(メタデータ) (2021-07-05T07:37:24Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。