論文の概要: Automating Data Science Pipelines with Tensor Completion
- arxiv url: http://arxiv.org/abs/2410.06408v1
- Date: Tue, 8 Oct 2024 22:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:59:12.482955
- Title: Automating Data Science Pipelines with Tensor Completion
- Title(参考訳): テンソル補完によるデータサイエンスパイプラインの自動化
- Authors: Shaan Pakala, Bryce Graw, Dawon Ahn, Tam Dinh, Mehnaz Tabassum Mahin, Vassilis Tsotras, Jia Chen, Evangelos E. Papalexakis,
- Abstract要約: 我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
- 参考スコア(独自算出の注目度): 4.956678070210018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter optimization is an essential component in many data science pipelines and typically entails exhaustive time and resource-consuming computations in order to explore the combinatorial search space. Similar to this problem, other key operations in data science pipelines exhibit the exact same properties. Important examples are: neural architecture search, where the goal is to identify the best design choices for a neural network, and query cardinality estimation, where given different predicate values for a SQL query the goal is to estimate the size of the output. In this paper, we abstract away those essential components of data science pipelines and we model them as instances of tensor completion, where each variable of the search space corresponds to one mode of the tensor, and the goal is to identify all missing entries of the tensor, corresponding to all combinations of variable values, starting from a very small sample of observed entries. In order to do so, we first conduct a thorough experimental evaluation of existing state-of-the-art tensor completion techniques and introduce domain-inspired adaptations (such as smoothness across the discretized variable space) and an ensemble technique which is able to achieve state-of-the-art performance. We extensively evaluate existing and proposed methods in a number of datasets generated corresponding to (a) hyperparameter optimization for non-neural network models, (b) neural architecture search, and (c) variants of query cardinality estimation, demonstrating the effectiveness of tensor completion as a tool for automating data science pipelines. Furthermore, we release our generated datasets and code in order to provide benchmarks for future work on this topic.
- Abstract(参考訳): ハイパーパラメータ最適化は、多くのデータサイエンスパイプラインにおいて不可欠なコンポーネントであり、組合せ探索空間を探索するためには、通常、全時間とリソース消費の計算を必要とする。
この問題と同様に、データサイエンスパイプラインにおける他の重要な操作は、まったく同じ特性を示す。
重要な例としては、ニューラルネットワークのための最良の設計選択を特定することが目標とするニューラルネットワーク検索、SQLクエリのさまざまな述語値が与えられた場合のクエリ基準推定、その目標は出力のサイズを見積もることである。
本稿では,データサイエンスパイプラインの基本成分を抽象化し,探索空間の各変数がテンソルの1つのモードに対応するテンソル完備化のインスタンスとしてモデル化する。
そこで我々はまず,既存の最先端テンソル完備化手法の徹底的な実験的評価を行い,ドメインにインスパイアされた適応(離散化変数空間のスムーズさなど)と,最先端性能を実現するアンサンブル技術を導入する。
我々は,既存の手法と提案手法を,対応する複数のデータセットで広範囲に評価する。
(a)非神経ネットワークモデルに対するハイパーパラメータ最適化
b)ニューラルアーキテクチャサーチ,及び
(c)データサイエンスパイプラインの自動化ツールとしてのテンソル補完の有効性を実証したクエリ基準推定の変種。
さらに、このトピックに関する今後の作業のベンチマークを提供するために、生成されたデータセットとコードもリリースします。
関連論文リスト
- Image Classification using Combination of Topological Features and
Neural Networks [1.0323063834827417]
我々は、データ空間から重要なトポロジ的特徴を抽出するために、永続的ホモロジー法、すなわち、トポロジ的データ解析(TDA)の技法を用いる。
これは、MNISTデータセット内の複数のクラスから画像を分類することを目的として行われた。
提案手法は,1ストリームと2ストリームのニューラルネットワークによって構成されるディープラーニングアプローチにトポロジ的特徴を挿入する。
論文 参考訳(メタデータ) (2023-11-10T20:05:40Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Generating Synthetic Datasets by Interpolating along Generalized
Geodesics [18.278734644369052]
組み合わせ”として合成可能なデータセットの組み合わせ方法を示す。
特に、異なるラベルセットを持つデータセットと無関係なデータセットの間でさえ補間する方法を示す。
これは、オンデマンドデータセット合成をターゲットとする、有望な新しいアプローチであることを実証しています。
論文 参考訳(メタデータ) (2023-06-12T04:46:44Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Learning from Incomplete Features by Simultaneous Training of Neural
Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。
私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。
新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文 参考訳(メタデータ) (2020-11-28T02:20:39Z) - Deep Representational Similarity Learning for analyzing neural
signatures in task-based fMRI dataset [81.02949933048332]
本稿では、表現類似度分析(RSA)の深部拡張であるDRSL(Deep Representational similarity Learning)を開発する。
DRSLは、多数の被験者を持つfMRIデータセットにおける様々な認知タスク間の類似性を分析するのに適している。
論文 参考訳(メタデータ) (2020-09-28T18:30:14Z) - Distributed Learning via Filtered Hyperinterpolation on Manifolds [2.2046162792653017]
本稿では,実数値関数を多様体上で学習する問題について検討する。
大規模なデータセットを扱うという問題に触発され、並列データ処理アプローチが提示される。
学習関数の近似品質と多様体全体の量的関係を証明した。
論文 参考訳(メタデータ) (2020-07-18T10:05:18Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。