Fugu-MT 論文翻訳(概要): RDBench: ML Benchmark for Relational Databases

論文の概要: RDBench: ML Benchmark for Relational Databases

arxiv url: http://arxiv.org/abs/2310.16837v2
Date: Mon, 30 Oct 2023 16:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:01:37.986554
Title: RDBench: ML Benchmark for Relational Databases
Title（参考訳）: RDBench:リレーショナルデータベースのためのMLベンチマーク
Authors: Zizhao Zhang, Yi Yang, Lutong Zou, He Wen, Tao Feng, Jiaxuan You
Abstract要約: 我々は、リレーショナルデータベース(RDB)に関する再現性のある機械学習(ML)研究を促進するための標準ベンチマークRDBenchを紹介する。 RDBenchは、さまざまなスケール、ドメイン、グラフ、リレーショナル構造からなる、さまざまなRDBデータセットを提供する。 RDBenchは、RDB予測タスクの下で、XBoostGからグラフニューラルネットワークまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。
参考スコア（独自算出の注目度）: 38.96429447951739
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benefiting from high-quality datasets and standardized evaluation metrics, machine learning (ML) has achieved sustained progress and widespread applications. However, while applying machine learning to relational databases (RDBs), the absence of a well-established benchmark remains a significant obstacle to the development of ML. To address this issue, we introduce ML Benchmark For Relational Databases (RDBench), a standardized benchmark that aims to promote reproducible ML research on RDBs that include multiple tables. RDBench offers diverse RDB datasets of varying scales, domains, and relational structures, organized into 4 levels. Notably, to simplify the adoption of RDBench for diverse ML domains, for any given database, RDBench exposes three types of interfaces including tabular data, homogeneous graphs, and heterogeneous graphs, sharing the same underlying task definition. For the first time, RDBench enables meaningful comparisons between ML methods from diverse domains, ranging from XGBoost to Graph Neural Networks, under RDB prediction tasks. We design multiple classification and regression tasks for each RDB dataset and report averaged results over the same dataset, further enhancing the robustness of the experimental findings. RDBench is implemented with DBGym, a user-friendly platform for ML research and application on databases, enabling benchmarking new ML methods with RDBench at ease.
Abstract（参考訳）: 高品質なデータセットと標準化された評価指標から恩恵を受け、機械学習(ML)は持続的な進歩と広範なアプリケーションを実現した。しかし、機械学習をリレーショナルデータベース(RDB)に適用する一方で、十分に確立されたベンチマークが存在しないことは、MLの開発にとって大きな障害である。この問題に対処するため,我々は,複数のテーブルを含むrdb上で再現可能なml研究を促進するための標準ベンチマークであるrdbench(ml benchmark for relational databases)を紹介する。 RDBenchは、さまざまなスケール、ドメイン、リレーショナル構造のRDBデータセットを4つのレベルに分類する。特に、さまざまなMLドメインに対するRDBenchの採用を単純化するために、RDBenchは、グラフデータ、均質グラフ、異質グラフを含む3種類のインターフェースを公開し、その基盤となるタスク定義を共有する。 RDBenchは、RDB予測タスクの下で、XGBoostからGraph Neural Networksまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。 rdbデータセットごとに複数の分類と回帰タスクを設計、同じデータセット上で平均結果を報告し、実験結果のロバスト性をさらに向上させる。 RDBenchはDBGymで実装されている。DBGymはデータベース上のML研究とアプリケーションのためのユーザフレンドリーなプラットフォームで、RDBenchを使った新しいMLメソッドのベンチマークを容易に行える。

関連論文リスト

RelBench v2: A Large-Scale Benchmark and Repository for Relational Data [33.795728412518834]
RDLのためのRelBenchベンチマークのメジャー拡張であるRelBench v2を紹介する。 RDLモデルは、オートコンプリート予測とレコメンデーションタスクで、シングルテーブルベースラインを一貫して上回る。
論文参考訳（メタデータ） (2026-02-13T04:23:48Z)
Relational Database Distillation: From Structured Tables to Condensed Graph Data [48.347717300340435]
グラフベースモデルに必要な電力を維持しつつ,大規模RDBをコンパクトなヘテロジニアスグラフに蒸留することを目的としている。さらに、擬似ラベルを用いてカーネルリッジ回帰誘導目標を設計し、蒸留グラフの品質特性を創出する。
論文参考訳（メタデータ） (2025-10-08T13:05:31Z)
REDELEX: A Framework for Relational Deep Learning Exploration [0.0]
近年、深層学習は、RDBをグラフ構造として概念化する新しいパラダイムとして登場した。様々なRDLモデルと基礎となるRDBの特徴との関係について分析することができない。 REDELEX$-$aの総合的な探査フレームワークを70以上のRDBの最も多様なコレクション上で、様々な複雑さのRDLモデルを評価する。
論文参考訳（メタデータ） (2025-06-27T13:05:15Z)
RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。 LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文参考訳（メタデータ） (2025-06-16T12:19:08Z)
RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases [23.836665904554426]
RDB-to-graphモデリングは、クロステーブルな依存関係をキャプチャするのに役立つ。グラフモデリングに共通のルールを適用すると、最高のグラフモデルと比較して10%パフォーマンスが低下します。我々は,そのような手法を評価するための最初のベンチマークフレームワークであるRDB2Gを紹介する。
論文参考訳（メタデータ） (2025-06-02T06:34:10Z)
Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。 R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文参考訳（メタデータ） (2025-05-28T08:17:57Z)
Griffin: Towards a Graph-Centric Relational Database Foundation Model [37.09648739513178]
Griffinはデータベース(RDB)用に特別に設計された最初の基礎モデルの試みである我々は、クロスアテンションモジュールと新しいアグリゲータを組み込むことで、アーキテクチャを強化する。グリフィンは、様々な領域にわたるRDBから抽出された大規模、異質、および時間グラフで評価される。
論文参考訳（メタデータ） (2025-05-08T18:03:43Z)
SchemaAgent: A Multi-Agents Framework for Generating Relational Database Schema [35.57815867567431]
既存の取り組みは主に、カスタマイズされたルールや従来のディープラーニングモデルに基づいており、しばしばリレーショナルスキーマを生成する。高品質データベーススキーマの自動生成のための統一LLMベースのマルチエージェントフレームワークを提案する。我々は、様々な段階にわたる問題の正当性を特定するために、リフレクションとインスペクションのための専用の役割と、革新的なエラー検出と修正機構を組み込んだ。
論文参考訳（メタデータ） (2025-03-31T09:39:19Z)
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL [18.915121803834698]
大規模言語モデル(LLM)を用いたデータベース理解のための新しいフレームワークDB-Exploreを提案する。我々のフレームワークは、多様なサンプリング戦略と自動命令生成を通じて、包括的なデータベース理解を可能にする。 Qwen2.5-coder-7Bモデルに基づくオープンソース実装は、比較評価において複数のGPT-4駆動のテキスト・ツー・コーダシステムより優れている。
論文参考訳（メタデータ） (2025-03-06T20:46:43Z)
CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。我々は、Turbo後合成のための新しいデータレシピを公開した。我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文参考訳（メタデータ） (2025-02-01T06:03:55Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。 RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文参考訳（メタデータ） (2024-07-29T14:46:13Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文参考訳（メタデータ） (2024-06-17T15:59:49Z)
TopoBench: A Framework for Benchmarking Topological Deep Learning [48.21297982414672]
トポロジカルディープラーニング(TDL)の研究の標準化と高速化を目的としたオープンソースライブラリであるTopoBenchを紹介する。 TopoBenchは、TDLをデータ生成、ロード、変換、処理、モデルトレーニング、最適化、評価のための独立したモジュールのシーケンスに分解する。 TopoBenchの重要な機能は、トポロジカルドメイン間の変換とリフトをサポートすることだ。
論文参考訳（メタデータ） (2024-06-09T18:31:19Z)
M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Multiple Partitions [16.188375536066044]
Retrieval-Augmented Generation (RAG)は、外部データベースから関連するメモリを取得することで、Large Language Models (LLM)を強化する。既存のRAGメソッドは通常、データベース全体のすべてのメモリを整理する。本稿では、複数の分割パラダイムをRAG(M-RAG)に導入し、各データベース分割をRAG実行の基本単位とする。
論文参考訳（メタデータ） (2024-05-26T04:03:13Z)
4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文参考訳（メタデータ） (2024-04-28T15:04:54Z)
JoinBoost: Grow Trees Over Normalized Data Using Only SQL [10.919507523061888]
JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリである。それは、特殊なMLライブラリとパフォーマンスの競争力を提供し、基礎となる機能とスケールする。実験の結果、JoinBoostはLightGBMよりも3倍高速で、最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。
論文参考訳（メタデータ） (2023-07-01T20:18:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。