論文の概要: MontePrep: Monte-Carlo-Driven Automatic Data Preparation without Target Data Instances
- arxiv url: http://arxiv.org/abs/2509.17553v1
- Date: Mon, 22 Sep 2025 09:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.317083
- Title: MontePrep: Monte-Carlo-Driven Automatic Data Preparation without Target Data Instances
- Title(参考訳): MontePrep: ターゲットデータインスタンスを含まないモンテカルロ駆動の自動データ準備
- Authors: Congcong Ge, Yachuan Liu, Yixuan Tang, Yifan Zhu, Yaofeng Tu, Yunjun Gao,
- Abstract要約: 商用システムにおいて、ADP (Pervasive for Automatic Data prepared) とは、異なるソースから標準化されたスキーマ仕様でターゲットにデータを転送することである。
そこで本研究では,目標確率をゼロとしたトレーニング不要パイプライン合成を実現するための,効率的なエンドツーエンドADPフレームワークであるMontePrepを提案する。
MontePrepは,オープンソースの大規模言語モデル (LLM) を用いた木構造探索問題として定式化されている。
- 参考スコア(独自算出の注目度): 25.78808887206003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In commercial systems, a pervasive requirement for automatic data preparation (ADP) is to transfer relational data from disparate sources to targets with standardized schema specifications. Previous methods rely on labor-intensive supervision signals or target table data access permissions, limiting their usage in real-world scenarios. To tackle these challenges, we propose an effective end-to-end ADP framework MontePrep, which enables training-free pipeline synthesis with zero target-instance requirements. MontePrep is formulated as an open-source large language model (LLM) powered tree-structured search problem. It consists of three pivot components, i.e., a data preparation action sandbox (DPAS), a fundamental pipeline generator (FPG), and an execution-aware pipeline optimizer (EPO). We first introduce DPAS, a lightweight action sandbox, to navigate the search-based pipeline generation. The design of DPAS circumvents exploration of infeasible pipelines. Then, we present FPG to build executable DP pipelines incrementally, which explores the predefined action sandbox by the LLM-powered Monte Carlo Tree Search. Furthermore, we propose EPO, which invokes pipeline execution results from sources to targets to evaluate the reliability of the generated pipelines in FPG. In this way, unreasonable pipelines are eliminated, thus facilitating the search process from both efficiency and effectiveness perspectives. Extensive experimental results demonstrate the superiority of MontePrep with significant improvement against five state-of-the-art competitors.
- Abstract(参考訳): 商用システムにおいて、自動データ準備(ADP)の広範な要件は、異なるソースから標準化されたスキーマ仕様でターゲットに関係データを転送することである。
従来の方法は労働集約的な監視信号やターゲットテーブルデータアクセス許可に依存しており、実際のシナリオでの使用を制限する。
これらの課題に対処するために,ターゲットインスタンスの要求をゼロにすることなく,トレーニング不要なパイプライン合成を可能にする,効果的なエンドツーエンドADPフレームワーク MontePrep を提案する。
MontePrepは,オープンソースの大規模言語モデル (LLM) を用いた木構造探索問題として定式化されている。
3つのピボットコンポーネント、すなわちデータ準備アクションサンドボックス(DPAS)、基本パイプラインジェネレータ(FPG)、実行対応パイプラインオプティマイザ(EPO)で構成されている。
まず、検索ベースのパイプライン生成をナビゲートするために、軽量なアクションサンドボックスであるDPASを紹介する。
DPASの設計は、実現不可能なパイプラインの探索を回避している。
次に,実行可能DPパイプラインをインクリメンタルに構築するためにFPGを提案し,LCMを利用したMonte Carlo Tree Searchによって事前に定義されたアクションサンドボックスを探索する。
さらに,FPGで生成されたパイプラインの信頼性を評価するために,ソースからターゲットへのパイプライン実行結果の呼び出しを行うEPOを提案する。
このようにして、不合理なパイプラインを排除し、効率性と有効性の両方の観点から探索プロセスを容易にする。
大規模な実験結果から、モンテプレップの優位性が示され、5つの最先端の競合相手に対して顕著に改善された。
関連論文リスト
- Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines [23.421567721746765]
データ作成命令をDPパイプラインに変換するタスクであるText-to-Pipelineを導入する。
また,システム評価を支援するベンチマーク PARROT も開発した。
この改善にもかかわらず、Text-to-Pipelineには相当な進歩の余地がある。
論文 参考訳(メタデータ) (2025-05-21T15:40:53Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。
PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-02T20:29:31Z) - PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines [0.8148009849453334]
大規模言語モデル(LLM)は、さまざまなドメインにまたがる特殊な実運用データ処理パイプラインに、ますます多くデプロイされている。
これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。
本稿では,2087のパイプラインプロンプトのデータセットであるPrompTEVALSについて,12623のアサーション基準で紹介する。
論文 参考訳(メタデータ) (2025-04-20T21:04:23Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - TODS: An Automated Time Series Outlier Detection System [70.88663649631857]
TODSは,パイプライン構築を容易にする,高度にモジュール化されたシステムである。
Todsはデータ処理、時系列処理、特徴分析、検出アルゴリズム、強化モジュールを含む70のプリミティブをサポートしている。
論文 参考訳(メタデータ) (2020-09-18T15:36:43Z) - Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud
Forecasting for Sequential Pose Forecasting [106.3504366501894]
自動運転車やロボット操作システムは、オブジェクトを最初に検出して追跡することによって、将来のオブジェクトのポーズを予測することが多い。
ポーズ予測アルゴリズムは通常、オブジェクトのポーズのラベル付きシーケンスを必要とするため、このパイプラインはスケールするのに費用がかかる。
本稿では,まず3次元センサデータを予測し,予測点雲列上の物体を検知・追跡し,将来的なポーズを求めることを提案する。
これにより、センサーデータ予測タスクにラベルが不要であるため、予測のスケールが難しくなる。
論文 参考訳(メタデータ) (2020-03-18T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。