論文の概要: Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics
- arxiv url: http://arxiv.org/abs/2212.07517v1
- Date: Wed, 14 Dec 2022 21:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:26:04.874137
- Title: Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics
- Title(参考訳): コンテキストリッチ処理を用いた分析エンジン:効率的な次世代分析に向けて
- Authors: Viktor Sanca, Anastasia Ailamaki
- Abstract要約: 我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
- 参考スコア(独自算出の注目度): 12.317930859033149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As modern data pipelines continue to collect, produce, and store a variety of
data formats, extracting and combining value from traditional and context-rich
sources such as strings, text, video, audio, and logs becomes a manual process
where such formats are unsuitable for RDBMS. To tap into the dark data, domain
experts analyze and extract insights and integrate them into the data
repositories. This process can involve out-of-DBMS, ad-hoc analysis, and
processing resulting in ETL, engineering effort, and suboptimal performance.
While AI systems based on ML models can automate the analysis process, they
often further generate context-rich answers. Using multiple sources of truth,
for either training the models or in the form of knowledge bases, further
exacerbates the problem of consolidating the data of interest.
We envision an analytical engine co-optimized with components that enable
context-rich analysis. Firstly, as the data from different sources or resulting
from model answering cannot be cleaned ahead of time, we propose using online
data integration via model-assisted similarity operations. Secondly, we aim for
a holistic pipeline cost- and rule-based optimization across relational and
model-based operators. Thirdly, with increasingly heterogeneous hardware and
equally heterogeneous workloads ranging from traditional relational analytics
to generative model inference, we envision a system that just-in-time adapts to
the complex analytical query requirements. To solve increasingly complex
analytical problems, ML offers attractive solutions that must be combined with
traditional analytical processing and benefit from decades of database
community research to achieve scalability and performance effortless for the
end user.
- Abstract(参考訳): 現代的なデータパイプラインがさまざまなデータフォーマットを収集、生成、保存し続けていくにつれ、文字列、テキスト、ビデオ、オーディオ、ログといった、従来およびコンテキストに富んだソースから価値を抽出、結合することは、rdbmsに適さない手作業のプロセスになる。
ダークデータをタップすると、ドメインの専門家が洞察を分析して抽出し、それらをデータリポジトリに統合する。
このプロセスには、DBMSの外部、アドホック分析、ETL、エンジニアリングの取り組み、そして準最適パフォーマンスをもたらす処理が含まれる。
MLモデルに基づくAIシステムは分析プロセスを自動化することができるが、文脈に富む回答をさらに生成することが多い。
複数の真理源を用いて、モデルまたは知識基盤の形で訓練すると、興味のあるデータを統合するという問題がさらに悪化する。
コンテキストに富んだ分析を可能にするコンポーネントと協調して最適化された分析エンジンを想定する。
第一に、異なるソースからのデータやモデル応答の結果を事前に浄化できないため、モデル支援類似性操作によるオンラインデータ統合を提案する。
第2に、リレーショナルおよびモデルベース演算子間の全体的パイプラインコストとルールベースの最適化を目指している。
第3に、従来型リレーショナル分析から生成モデル推論まで多種多様なハードウェアと等質なワークロードによって、ジャストインタイムで複雑な分析クエリ要求に適応するシステムを構想する。
ますます複雑な分析問題を解決するためにmlは、従来の分析処理と組み合わせなければならない魅力的なソリューションを提供し、数十年にわたるデータベースコミュニティの研究から、エンドユーザのスケーラビリティとパフォーマンスを損なうことなく得ることができる。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - Towards Next-Generation Urban Decision Support Systems through AI-Powered Construction of Scientific Ontology using Large Language Models -- A Case in Optimizing Intermodal Freight Transportation [1.6230958216521798]
本研究では,事前学習された大規模言語モデル(LLM)を活用する可能性について検討する。
推論コアとしてChatGPT APIを採用することで、自然言語処理、メソノロジーベースのプロンプトチューニング、トランスフォーマーを含む統合ワークフローを概説する。
我々の方法論の成果は、広く採用されているオントロジー言語(OWL、RDF、SPARQLなど)の知識グラフである。
論文 参考訳(メタデータ) (2024-05-29T16:40:31Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted
Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした
定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - Production Machine Learning Pipelines: Empirical Analysis and
Optimization Opportunities [5.510431861706128]
Google の 3000 の生産 ML パイプラインの実績グラフを分析し、トレーニングされた 450,000 モデルで構成され、4 ヶ月以上の期間にわたって。
分析の結果,様々な粒度の産業用MLパイプラインの特徴,構成要素,およびトポロジが明らかになった。
従来のデータ管理のアイデアを活用して、最適化のための豊富な機会を特定します。
論文 参考訳(メタデータ) (2021-03-30T00:46:29Z) - You Only Compress Once: Optimal Data Compression for Estimating Linear
Models [1.2845031126178592]
線形モデルを用いる多くの工学システムは分散システムおよび専門家構成によって計算効率を達成します。
条件付き十分な統計は、統一されたデータ圧縮と推定戦略である。
論文 参考訳(メタデータ) (2021-02-22T19:00:18Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。