論文の概要: Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents
- arxiv url: http://arxiv.org/abs/2602.02335v1
- Date: Mon, 02 Feb 2026 16:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.310137
- Title: Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents
- Title(参考訳): 人・エージェントのためのデータコントラクト,バージョニング,トランザクショナルパイプライン
- Authors: Weiming Sheng, Jinlang Wang, Manuel Barros, Aldrin Montana, Jacopo Tagliabue, Luca Bigon,
- Abstract要約: Bauplanはコードファーストのレイクハウスで、よく知られた抽象化を使って(ほとんど)違法な状態を表現不能にすることを目的としています。
Bauplanは、パイプラインバウンダリをチェック可能にする型付きテーブルコントラクト、レビューとランタイムのためのGitライクなデータバージョニング、パイプラインレベルのアトミック性を保証するトランザクション実行の3つの軸に沿って機能する。
- 参考スコア(独自算出の注目度): 1.9161188920101901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lakehouses are the default cloud platform for analytics and AI, but they become unsafe when untrusted actors concurrently operate on production data: upstream-downstream mismatches surface only at runtime, and multi-table pipelines can leak partial effects. Inspired by software engineering, we design Bauplan, a code-first lakehouse that aims to make (most) illegal states unrepresentable using familiar abstractions. Bauplan acts along three axes: typed table contracts to make pipeline boundaries checkable, Git-like data versioning for review and reproducibility, and transactional runs that guarantee pipeline-level atomicity. We report early results from a lightweight formal transaction model and discuss future work motivated by counterexamples.
- Abstract(参考訳): Lakehousesは分析とAIのためのデフォルトのクラウドプラットフォームだが、信頼できないアクターが運用データで同時に運用する場合には安全ではない。
ソフトウェアエンジニアリングにインスパイアされ、コードファーストのレイクハウスであるBauplanを設計しました。
Bauplanは、パイプラインバウンダリをチェック可能にする型付きテーブルコントラクト、レビューと再現性のためのGitライクなデータバージョニング、パイプラインレベルのアトミック性を保証するトランザクション実行の3つの軸に沿って機能する。
軽量な形式取引モデルによる初期の成果を報告し、反例によって動機付けられた今後の作業について議論する。
関連論文リスト
- Trustworthy AI in the Agentic Lakehouse: from Concurrency to Governance [5.3013727160110085]
信頼できるエージェントへの道は、まずインフラストラクチャの問題を解決することから始まります。
我々は,データを再実装し,レイクハウス内での分離を計算するエージェントファースト設計であるBauplanを提案する。
Bauplanで自己修復パイプラインのリファレンス実装を共有することで、結論付けます。
論文 参考訳(メタデータ) (2025-11-20T14:21:34Z) - Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse [3.6729718095918393]
APIファーストでプログラム可能なレイクハウスは、安全な設計のエージェントレイクハウスのための適切な抽象化を提供する。
本稿では, エージェントがデータパイプラインを修復する上で, 証明キャリングコードにインスパイアされた正当性チェックを提案する。
論文 参考訳(メタデータ) (2025-10-10T17:18:36Z) - Lang-PINN: From Language to Physics-Informed Neural Networks via a Multi-Agent Framework [54.447408954009454]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なアプローチを提供する
本稿では,Lang-PINNを提案する。Lang-PINNはLLM駆動のマルチエージェントシステムで,自然言語タスク記述から直接トレーニング可能なPINNを構築する。
実験により、Lang-PINNは、競合するベースラインよりもかなり低いエラーとロバスト性を達成することが示された。
論文 参考訳(メタデータ) (2025-10-03T08:20:02Z) - DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。
社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。
結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-09-30T10:36:23Z) - Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines [18.75611679837171]
我々は,NLデータ作成命令をDPパイプラインに変換する新しいタスクであるText-to-Pipelineを紹介する。
Parrotは、体系的な評価をサポートする大規模なベンチマークである。
ParROTは、プロダクションパイプラインから変換パターンをマイニングし、23,009の現実世界のテーブル上でインスタンス化する。
論文 参考訳(メタデータ) (2025-05-21T15:40:53Z) - Bauplan: zero-copy, scale-up FaaS for data pipelines [4.6797109107617105]
bauplanは、データ実践者向けに設計された、新しいFプログラミングモデルとサーバレスランタイムである。
bauplanを使用することで、ユーザはランタイム環境とともに、機能的なDAG(Directed Acyclic Graphs)を宣言的に定義することができる。
汎用性を減らし、データ認識を優先することで、バプランのパフォーマンスが向上し、データワークロードの開発者エクスペリエンスも向上していることを示す。
論文 参考訳(メタデータ) (2024-10-22T22:49:01Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。