論文の概要: Building a serverless Data Lakehouse from spare parts
- arxiv url: http://arxiv.org/abs/2308.05368v1
- Date: Thu, 10 Aug 2023 06:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:53:05.448622
- Title: Building a serverless Data Lakehouse from spare parts
- Title(参考訳): 予備部品からサーバレスデータレイクハウスを構築する
- Authors: Jacopo Tagliabue, Ciro Greco, Luca Bigon
- Abstract要約: Data Lakehouseアーキテクチャは、オープンファイルフォーマット、パフォーマンス、データ変換、BI、データサイエンスのファーストクラスサポートに基づいて構築されている。
Bauplanでは、Lakehouseのビジョンを満たすために、新たなサーバレスプラットフォームを構築することにしました。
本研究では,ユーザエクスペリエンス,高レベルのアーキテクチャ,ツーリングの決定をレビューし,今後の開発計画を共有することで結論付ける。
- 参考スコア(独自算出の注目度): 5.259526087073711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Data Lakehouse architecture is built on open file
formats, performance, and first-class support for data transformation, BI and
data science: while the vision stresses the importance of lowering the barrier
for data work, existing implementations often struggle to live up to user
expectations. At Bauplan, we decided to build a new serverless platform to
fulfill the Lakehouse vision. Since building from scratch is a challenge unfit
for a startup, we started by re-using (sometimes unconventionally) existing
projects, and then investing in improving the areas that would give us the
highest marginal gains for the developer experience. In this work, we review
user experience, high-level architecture and tooling decisions, and conclude by
sharing plans for future development.
- Abstract(参考訳): 最近提案されたdata lakehouseアーキテクチャは、オープンファイルフォーマット、パフォーマンス、データ変換、bi、データサイエンスの第一級のサポートをベースに構築されている。
Bauplanでは、Lakehouseのビジョンを満たすために、新たなサーバレスプラットフォームを構築することにしました。
スクラッチから構築することは、スタートアップにとって不適当であるので、既存のプロジェクトを再使用し(時には従来とは違って)、開発者エクスペリエンスに最も限界的な利益をもたらす領域の改善に投資することから始めました。
本研究は,ユーザエクスペリエンス,ハイレベルアーキテクチャ,ツール決定をレビューし,今後の開発計画を共有することで結論づける。
関連論文リスト
- Building and better understanding vision-language models: insights and future directions [8.230565679484128]
本稿では,現在最先端の視覚言語モデルへのアプローチについて概観する。
Idefics3-8Bは従来のIdefics2-8Bを大きく上回る強力なVLMです。
トレーニング用に作成されたデータセットとともに、モデルをリリースしています。
論文 参考訳(メタデータ) (2024-08-22T17:47:24Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - Exploring API Capabilities with Fieldwire [0.0]
クラウドベースの建設管理ソフトウェアであるFieldwireは、建設業界において重要なツールとなっている。
ソフトウェア産業におけるアプリケーションプログラミングインターフェース(API)の台頭により、Fieldwireは、このトレンドを利用して、建設専門家をさらに力づけている。
APIは、特別な構築ツールとの統合、データサイロの排除、手動データ入力、リアルタイム情報共有の問題といった可能性を秘めている。
論文 参考訳(メタデータ) (2023-10-04T17:26:44Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - AdaXpert: Adapting Neural Architecture for Growing Data [63.30393509048505]
実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。
データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。
既存のメソッドは、データの増大する性質を無視したり、特定のデータセットの最適なアーキテクチャを独立して検索しようとする。
論文 参考訳(メタデータ) (2021-07-01T07:22:05Z) - A Design Space Study for LISTA and Beyond [79.76740811464597]
近年では、反復アルゴリズムの展開による問題固有のディープネットワーク構築に大きな成功を収めている。
本稿では,深層ネットワークにおける設計アプローチとしてのアンローリングの役割について再考する。
スパースリカバリのためのlistaを代表例として,未ロールモデルに対する設計空間調査を初めて実施した。
論文 参考訳(メタデータ) (2021-04-08T23:01:52Z) - A Big Data Lake for Multilevel Streaming Analytics [0.4640835690336652]
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
論文 参考訳(メタデータ) (2020-09-25T19:57:21Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。