論文の概要: Text embedding models can be great data engineers
- arxiv url: http://arxiv.org/abs/2505.14802v1
- Date: Tue, 20 May 2025 18:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.693169
- Title: Text embedding models can be great data engineers
- Title(参考訳): テキスト埋め込みモデルは優れたデータエンジニアになれる
- Authors: Iman Kazemian, Paritosh Ramanan, Murat Yildirim,
- Abstract要約: テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。
ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data engineering pipelines are essential - albeit costly - components of predictive analytics frameworks requiring significant engineering time and domain expertise for carrying out tasks such as data ingestion, preprocessing, feature extraction, and feature engineering. In this paper, we propose ADEPT, an automated data engineering pipeline via text embeddings. At the core of the ADEPT framework is a simple yet powerful idea that the entropy of embeddings corresponding to textually dense raw format representation of time series can be intuitively viewed as equivalent (or in many cases superior) to that of numerically dense vector representations obtained by data engineering pipelines. Consequently, ADEPT uses a two step approach that (i) leverages text embeddings to represent the diverse data sources, and (ii) constructs a variational information bottleneck criteria to mitigate entropy variance in text embeddings of time series data. ADEPT provides an end-to-end automated implementation of predictive models that offers superior predictive performance despite issues such as missing data, ill-formed records, improper or corrupted data formats and irregular timestamps. Through exhaustive experiments, we show that the ADEPT outperforms the best existing benchmarks in a diverse set of datasets from large-scale applications across healthcare, finance, science and industrial internet of things. Our results show that ADEPT can potentially leapfrog many conventional data pipeline steps thereby paving the way for efficient and scalable automation pathways for diverse data science applications.
- Abstract(参考訳): データエンジニアリングパイプラインは、データ取り込み、前処理、機能抽出、機能エンジニアリングといったタスクを実行するために、かなりのエンジニアリング時間とドメインの専門知識を必要とする予測分析フレームワークのコンポーネントです。
本稿では,テキスト埋め込みによる自動データエンジニアリングパイプラインADEPTを提案する。
ADEPTフレームワークの中核にあるのは、データエンジニアリングパイプラインによって得られる数値的に密度の高いベクトル表現と直感的に同等(あるいは多くの場合より優れている)に、時系列のテキスト的に密度の高い生のフォーマット表現に対応する埋め込みのエントロピーを見ることができるという単純な強力な考え方である。
その結果、ADEPTは2段階のアプローチを採用しています。
i) 多様なデータソースを表現するためにテキスト埋め込みを利用する。
(II)時系列データのテキスト埋め込みにおけるエントロピーのばらつきを軽減するため、変動情報ボトルネック基準を構築する。
ADEPTは、データ不足、不正なレコード、不適切なデータフォーマット、破損したデータフォーマット、不規則なタイムスタンプなどの問題にもかかわらず、優れた予測性能を提供する予測モデルのエンドツーエンドの自動実装を提供する。
徹底的な実験により、ADEPTは医療、金融、科学、産業用インターネットなどにわたる大規模アプリケーションのデータセットセットにおいて、最高のベンチマークを上回ります。
この結果から、ADEPTは従来のデータパイプラインのステップを飛躍的に進め、多様なデータサイエンスアプリケーションのための効率的でスケーラブルな自動化経路を開拓できる可能性が示唆された。
関連論文リスト
- Metadata Matters for Time Series: Informative Forecasting with Transformers [70.38241681764738]
時系列予測のためのMetaTST(Metadata-informed Time Series Transformer)を提案する。
メタデータの非構造化の性質に取り組むため、MetaTSTは、事前に設計されたテンプレートによってそれらを自然言語に形式化する。
Transformerエンコーダは、メタデータ情報によるシーケンス表現を拡張するシリーズトークンとメタデータトークンの通信に使用される。
論文 参考訳(メタデータ) (2024-10-04T11:37:55Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - TimeVAE: A Variational Auto-Encoder for Multivariate Time Series
Generation [6.824692201913679]
可変オートエンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。
提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。
論文 参考訳(メタデータ) (2021-11-15T21:42:14Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。