論文の概要: Multi-layer Optimizations for End-to-End Data Analytics
- arxiv url: http://arxiv.org/abs/2001.03541v1
- Date: Fri, 10 Jan 2020 16:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:56:06.745373
- Title: Multi-layer Optimizations for End-to-End Data Analytics
- Title(参考訳): エンドツーエンドデータ分析のための多層最適化
- Authors: Amir Shaikhha, Maximilian Schleich, Alexandru Ghita, Dan Olteanu
- Abstract要約: 代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
- 参考スコア(独自算出の注目度): 71.05611866288196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of training machine learning models over
multi-relational data. The mainstream approach is to first construct the
training dataset using a feature extraction query over input database and then
use a statistical software package of choice to train the model. In this paper
we introduce Iterative Functional Aggregate Queries (IFAQ), a framework that
realizes an alternative approach. IFAQ treats the feature extraction query and
the learning task as one program given in the IFAQ's domain-specific language,
which captures a subset of Python commonly used in Jupyter notebooks for rapid
prototyping of machine learning applications. The program is subject to several
layers of IFAQ optimizations, such as algebraic transformations, loop
transformations, schema specialization, data layout optimizations, and finally
compilation into efficient low-level C++ code specialized for the given
workload and data.
We show that a Scala implementation of IFAQ can outperform mlpack, Scikit,
and TensorFlow by several orders of magnitude for linear regression and
regression tree models over several relational datasets.
- Abstract(参考訳): マルチリレーショナルデータよりも機械学習モデルを訓練する問題を考える。
メインストリームのアプローチは、まず、入力データベース上の特徴抽出クエリを使用してトレーニングデータセットを構築し、次に選択した統計ソフトウェアパッケージを使用してモデルをトレーニングする。
本稿では,代替手法を実現するフレームワークである反復的機能集約クエリ(ifaq)を提案する。
ifaqは、機能抽出クエリと学習タスクを、jupyterノートブックで一般的に使用されているpythonのサブセットを取り込み、機械学習アプリケーションの迅速なプロトタイピングを行うifaqのドメイン固有言語で与えられる1つのプログラムとして扱う。
このプログラムは、代数変換、ループ変換、スキーマの特殊化、データレイアウトの最適化、そして最後に、与えられたワークロードとデータに特化した効率的な低レベルのC++コードにコンパイルされる。
IFAQのScala実装は、複数のリレーショナルデータセット上の線形回帰木モデルと回帰木モデルにおいて、mlpack、Scikit、TensorFlowよりも数桁優れていることを示す。
関連論文リスト
- Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。
本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:14:04Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Scalable Inference for Bayesian Multinomial Logistic-Normal Dynamic Linear Models [0.5735035463793009]
この記事では、$textitFenrir$と呼ばれる、後続状態推定に対する効率的で正確なアプローチを開発します。
我々の実験から、フェンリルはスタンよりも3桁効率が良いことが示唆された。
当社のメソッドは,C++で記述されたユーザフレンドリなソフトウェアライブラリとして,Rインターフェースを備えたコミュニティで利用可能です。
論文 参考訳(メタデータ) (2024-10-07T23:20:14Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Selecting Walk Schemes for Database Embedding [6.7609045625714925]
関係データベースのコンポーネントの埋め込みについて検討する。
我々は、動的データベース用に設計された最近のFoRWaRDアルゴリズムに焦点を当てる。
いくつかの情報的ウォークスキームに焦点をあてることで,品質を維持しつつ,埋め込みをはるかに高速に行うことができることを示す。
論文 参考訳(メタデータ) (2024-01-20T11:39:32Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。