論文の概要: RDBench: ML Benchmark for Relational Databases
- arxiv url: http://arxiv.org/abs/2310.16837v2
- Date: Mon, 30 Oct 2023 16:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:01:37.986554
- Title: RDBench: ML Benchmark for Relational Databases
- Title(参考訳): RDBench:リレーショナルデータベースのためのMLベンチマーク
- Authors: Zizhao Zhang, Yi Yang, Lutong Zou, He Wen, Tao Feng, Jiaxuan You
- Abstract要約: 我々は、リレーショナルデータベース(RDB)に関する再現性のある機械学習(ML)研究を促進するための標準ベンチマークRDBenchを紹介する。
RDBenchは、さまざまなスケール、ドメイン、グラフ、リレーショナル構造からなる、さまざまなRDBデータセットを提供する。
RDBenchは、RDB予測タスクの下で、XBoostGからグラフニューラルネットワークまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。
- 参考スコア(独自算出の注目度): 38.96429447951739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from high-quality datasets and standardized evaluation metrics,
machine learning (ML) has achieved sustained progress and widespread
applications. However, while applying machine learning to relational databases
(RDBs), the absence of a well-established benchmark remains a significant
obstacle to the development of ML. To address this issue, we introduce ML
Benchmark For Relational Databases (RDBench), a standardized benchmark that
aims to promote reproducible ML research on RDBs that include multiple tables.
RDBench offers diverse RDB datasets of varying scales, domains, and relational
structures, organized into 4 levels. Notably, to simplify the adoption of
RDBench for diverse ML domains, for any given database, RDBench exposes three
types of interfaces including tabular data, homogeneous graphs, and
heterogeneous graphs, sharing the same underlying task definition. For the
first time, RDBench enables meaningful comparisons between ML methods from
diverse domains, ranging from XGBoost to Graph Neural Networks, under RDB
prediction tasks. We design multiple classification and regression tasks for
each RDB dataset and report averaged results over the same dataset, further
enhancing the robustness of the experimental findings. RDBench is implemented
with DBGym, a user-friendly platform for ML research and application on
databases, enabling benchmarking new ML methods with RDBench at ease.
- Abstract(参考訳): 高品質なデータセットと標準化された評価指標から恩恵を受け、機械学習(ML)は持続的な進歩と広範なアプリケーションを実現した。
しかし、機械学習をリレーショナルデータベース(RDB)に適用する一方で、十分に確立されたベンチマークが存在しないことは、MLの開発にとって大きな障害である。
この問題に対処するため,我々は,複数のテーブルを含むrdb上で再現可能なml研究を促進するための標準ベンチマークであるrdbench(ml benchmark for relational databases)を紹介する。
RDBenchは、さまざまなスケール、ドメイン、リレーショナル構造のRDBデータセットを4つのレベルに分類する。
特に、さまざまなMLドメインに対するRDBenchの採用を単純化するために、RDBenchは、グラフデータ、均質グラフ、異質グラフを含む3種類のインターフェースを公開し、その基盤となるタスク定義を共有する。
RDBenchは、RDB予測タスクの下で、XGBoostからGraph Neural Networksまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。
rdbデータセットごとに複数の分類と回帰タスクを設計、同じデータセット上で平均結果を報告し、実験結果のロバスト性をさらに向上させる。
RDBenchはDBGymで実装されている。DBGymはデータベース上のML研究とアプリケーションのためのユーザフレンドリーなプラットフォームで、RDBenchを使った新しいMLメソッドのベンチマークを容易に行える。
関連論文リスト
- 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models [48.38966595131693]
大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Optimal Data Generation in Multi-Dimensional Parameter Spaces, using
Bayesian Optimization [0.0]
本稿では,機械学習モデルを学習するための最小限の高情報データベースを構築するための新しい手法を提案する。
ガウス過程回帰(GPR)を用いた出力パラメータと入力パラメータの関係を模倣する。
GPRにより予測される標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
論文 参考訳(メタデータ) (2023-12-04T16:36:29Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - JoinBoost: Grow Trees Over Normalized Data Using Only SQL [10.919507523061888]
JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリである。
それは、特殊なMLライブラリとパフォーマンスの競争力を提供し、基礎となる機能とスケールする。
実験の結果、JoinBoostはLightGBMよりも3倍高速で、最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。
論文 参考訳(メタデータ) (2023-07-01T20:18:45Z) - Topological Data Analysis of Database Representations for Information
Retrieval [2.729524133721473]
永続ホモロジーはデータベーストポロジーの厳密な特徴付けを提供する。
我々は、一般的な埋め込みが接続を維持するのに失敗することを示した。
この効果を捉えるために、拡散不変ボトルネック距離を導入する。
論文 参考訳(メタデータ) (2021-04-04T19:29:47Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。