論文の概要: The Relational Data Borg is Learning
- arxiv url: http://arxiv.org/abs/2008.07864v1
- Date: Tue, 18 Aug 2020 11:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:16:27.960611
- Title: The Relational Data Borg is Learning
- Title(参考訳): 関係データボーグは学習しています
- Authors: Dan Olteanu
- Abstract要約: 本稿では,データベース問題として計算データよりも機械学習に対処するアプローチを概説する。
このアプローチはすでに多くの教師なしおよび教師なしの学習タスクに対して研究されている。
- 参考スコア(独自算出の注目度): 3.228602524766158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper overviews an approach that addresses machine learning over
relational data as a database problem. This is justified by two observations.
First, the input to the learning task is commonly the result of a feature
extraction query over the relational data. Second, the learning task requires
the computation of group-by aggregates.
This approach has been already investigated for a number of supervised and
unsupervised learning tasks, including: ridge linear regression, factorisation
machines, support vector machines, decision trees, principal component
analysis, and k-means; and also for linear algebra over data matrices.
The main message of this work is that the runtime performance of machine
learning can be dramatically boosted by a toolbox of techniques that exploit
the knowledge of the underlying data. This includes theoretical development on
the algebraic, combinatorial, and statistical structure of relational data
processing and systems development on code specialisation, low-level
computation sharing, and parallelisation. These techniques aim at lowering both
the complexity and the constant factors of the learning time.
This work is the outcome of extensive collaboration of the author with
colleagues from RelationalAI, in particular Mahmoud Abo Khamis, Molham Aref,
Hung Ngo, and XuanLong Nguyen, and from the FDB research project, in particular
Ahmet Kara, Milos Nikolic, Maximilian Schleich, Amir Shaikhha, Jakub Zavodny,
and Haozhe Zhang. The author would also like to thank the members of the FDB
project for the figures and examples used in this paper.
The author is grateful for support from industry: Amazon Web Services,
Google, Infor, LogicBlox, Microsoft Azure, RelationalAI; and from the funding
agencies EPSRC and ERC. This project has received funding from the European
Union's Horizon 2020 research and innovation programme under grant agreement No
682588.
- Abstract(参考訳): 本稿では,リレーショナルデータに対する機械学習のアプローチをデータベース問題として概説する。
これは2つの観察によって正当化される。
まず、学習課題への入力は、通常、関係データに対する特徴抽出クエリの結果である。
第二に、学習タスクはグループ別集約の計算を必要とする。
このアプローチは、リッジ線形回帰、因子化機械、サポートベクターマシン、決定木、主成分分析、k-平均、データ行列上の線形代数など、多くの教師あり、教師なしの学習タスクで既に研究されている。
この作業の主なメッセージは、基盤となるデータの知識を活用するテクニックのツールボックスによって、機械学習のランタイムパフォーマンスが劇的に向上する、ということだ。
これには、関係データ処理の代数的、組合せ的、統計的構造に関する理論的開発と、コード専門化、低レベル計算共有、並列化に関するシステム開発が含まれる。
これらのテクニックは、学習時間の複雑さと定数要因の両方を下げることを目的としている。
この研究は、RelationalAI、特にMahmoud Abo Khamis、Moham Aref、Hung Ngo、XuanLong Nguyen、特にFDB研究プロジェクト、特にAhmet Kara、Milos Nikolic、Maximilian Schleich、Amir Shaikhha、Jakub Zavodny、Haozhe Zhangの同僚との広範なコラボレーションの結果である。
著者は、また、この論文で使用される数字と例について、FDBプロジェクトのメンバーに感謝します。
著者は業界 – Amazon Web Services, Google, Infor, LogicBlox, Microsoft Azure, RelationalAI, そして資金提供機関 EPSRC と ERC からのサポートに感謝している。
このプロジェクトはeuのhorizon 2020 research and innovation programから助成金第682588号の下で資金提供を受けている。
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Kun: Answer Polishment for Chinese Self-Alignment with Instruction
Back-Translation [51.43576926422795]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。
我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-12T09:56:57Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - GPT-FinRE: In-context Learning for Financial Relation Extraction using
Large Language Models [1.9559144041082446]
本稿では,そのようなデータセットREFinDにおける関係抽出のソリューションについて述べる。
本稿では,文脈内学習(ICL)の枠組みとしてOpenAIモデルを用いた。
総合で3位になった。最高のF1スコアは0.718だ。
論文 参考訳(メタデータ) (2023-06-30T10:12:30Z) - The Tensor Data Platform: Towards an AI-centric Database System [6.519203713828565]
AIでも同じことをする時が来た、と私たちは主張します -- しかし、ツイストで!
真のAI中心のデータベースを実現するには、エンジンをリレーショナルからテンソル抽象化に移行する必要がある、と私たちは主張しています。
これにより,(1)画像,ビデオ,音声,テキスト,リレーショナルなどのマルチモーダルデータ処理,(2)HWにおけるイノベーションの豊かさ,(3)自動微分を利用してタスクを実行する「訓練可能な」クエリの新たなクラスを実現する。
論文 参考訳(メタデータ) (2022-11-04T21:26:16Z) - Semantic Parsing to Manipulate Relational Database For a Management
System [0.0]
本研究は,それぞれの作業範囲で異なる分野に実装可能なモデルとして,単純なアルゴリズムを提案する。
提案モデルは、人間の言語テキストを-understandablesqlクエリに変換する。
本稿では,2つのデータセットの時間を比較し,両者の精度を比較する。
論文 参考訳(メタデータ) (2021-02-18T15:08:23Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。