論文の概要: Bauplan: zero-copy, scale-up FaaS for data pipelines
- arxiv url: http://arxiv.org/abs/2410.17465v1
- Date: Tue, 22 Oct 2024 22:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:26.812182
- Title: Bauplan: zero-copy, scale-up FaaS for data pipelines
- Title(参考訳): Bauplan: データパイプラインのためのゼロコピー、スケールアップFaaS
- Authors: Jacopo Tagliabue, Tyler Caraza-Harter, Ciro Greco,
- Abstract要約: bauplanは、データ実践者向けに設計された、新しいFプログラミングモデルとサーバレスランタイムである。
bauplanを使用することで、ユーザはランタイム環境とともに、機能的なDAG(Directed Acyclic Graphs)を宣言的に定義することができる。
汎用性を減らし、データ認識を優先することで、バプランのパフォーマンスが向上し、データワークロードの開発者エクスペリエンスも向上していることを示す。
- 参考スコア(独自算出の注目度): 4.6797109107617105
- License:
- Abstract: Chaining functions for longer workloads is a key use case for FaaS platforms in data applications. However, modern data pipelines differ significantly from typical serverless use cases (e.g., webhooks and microservices); this makes it difficult to retrofit existing pipeline frameworks due to structural constraints. In this paper, we describe these limitations in detail and introduce bauplan, a novel FaaS programming model and serverless runtime designed for data practitioners. bauplan enables users to declaratively define functional Directed Acyclic Graphs (DAGs) along with their runtime environments, which are then efficiently executed on cloud-based workers. We show that bauplan achieves both better performance and a superior developer experience for data workloads by making the trade-off of reducing generality in favor of data-awareness
- Abstract(参考訳): データアプリケーションにおけるFaaSプラットフォームの主要なユースケースは、より長いワークロードに対するChaining関数である。
しかし、現代のデータパイプラインは、一般的なサーバレスユースケース(例えば、webhooksやマイクロサービス)と大きく異なる。
本稿では,データ実践者向けに設計された新しいFaaSプログラミングモデルとサーバレスランタイムであるbauplanを紹介する。
bauplanを使用することで,DAG(Directed Acyclic Graphs)とランタイム環境を宣言的に定義し,クラウドベースのワーカで効率的に実行することが可能になる。
汎用性を減らし、データ認識を優先することで、バプランはデータワークロードの優れたパフォーマンスと優れた開発者エクスペリエンスを両立させることができることを示す。
関連論文リスト
- SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint) [36.537985747809245]
Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
論文 参考訳(メタデータ) (2023-01-14T19:14:51Z) - Object as a Service (OaaS): Enabling Object Abstraction in Serverless
Clouds [2.0575037267955305]
我々は,Object as a Service (O)プログラミングとして知られる関数抽象化の上位に,新しい抽象化レベルを提案する。
Oはアプリケーションデータと機能をオブジェクトの抽象化にカプセル化し、開発者はリソースやデータ管理の負担を軽減します。
また、ソフトウェア再利用性、データのローカリティ、キャッシュなど、組み込み最適化機能の機会を開放する。
論文 参考訳(メタデータ) (2022-06-10T21:31:22Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文 参考訳(メタデータ) (2021-01-28T17:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。