論文の概要: mPyPl: Python Monadic Pipeline Library for Complex Functional Data
Processing
- arxiv url: http://arxiv.org/abs/2106.09164v1
- Date: Wed, 16 Jun 2021 22:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:03:32.204643
- Title: mPyPl: Python Monadic Pipeline Library for Complex Functional Data
Processing
- Title(参考訳): mPyPl: 複雑な関数データ処理のためのPythonモナディックパイプラインライブラリ
- Authors: Dmitry Soshnikov and Yana Valieva
- Abstract要約: mPyPlは関数型アプローチによる複雑なデータ処理タスクの簡略化を目的としている。
ビデオにおけるイベント検出の複雑な深層学習タスクにおいて,このライブラリがどのように使われたかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new Python library called mPyPl, which is
intended to simplify complex data processing tasks using functional approach.
This library defines operations on lazy data streams of named dictionaries
represented as generators (so-called multi-field datastreams), and allows
enriching those data streams with more 'fields' in the process of data
preparation and feature extraction. Thus, most data preparation tasks can be
expressed in the form of neat linear 'pipeline', similar in syntax to UNIX
pipes, or |> functional composition operator in F#.
We define basic operations on multi-field data streams, which resemble
classical monadic operations, and show similarity of the proposed approach to
monads in functional programming. We also show how the library was used in
complex deep learning tasks of event detection in video, and discuss different
evaluation strategies that allow for different compromises in terms of memory
and performance.
- Abstract(参考訳): 本稿では,機能的アプローチを用いた複雑なデータ処理タスクの簡略化を目的とした,mPyPlという新しいPythonライブラリを提案する。
このライブラリは、ジェネレータ(いわゆるマルチフィールドデータストリーム)として表現される名前付き辞書の遅延データストリームの操作を定義し、データ準備と特徴抽出のプロセスにおいて、これらのデータストリームをより多くの'フィールド'で拡張する。
したがって、ほとんどのデータ準備タスクは、UNIXパイプやF#の |> 関数型コンポジション演算子と同様に、きちんとした線形な 'パイプ' 形式で表現することができる。
古典的モナド演算に類似したマルチフィールドデータストリームの基本演算を定義し,関数型プログラミングにおけるモナドに対する提案手法の類似性を示す。
また,このライブラリがビデオ中のイベント検出の複雑なディープラーニングタスクにどのように使われたかを示し,メモリとパフォーマンスの面で異なる妥協を可能にするさまざまな評価戦略について議論した。
関連論文リスト
- Deep Fast Machine Learning Utils: A Python Library for Streamlined Machine Learning Prototyping [0.0]
Deep Fast Machine Learning Utils (DFMLU)ライブラリは、機械学習プロセスのアスペクトを自動化および拡張するために設計されたツールを提供する。
DFMLUはモデル開発とデータ処理をサポートする機能を提供します。
この原稿はDFMLUの機能の概要を示し、各ツールにPythonの例を提供している。
論文 参考訳(メタデータ) (2024-09-14T21:39:17Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z) - tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文 参考訳(メタデータ) (2021-01-28T17:16:46Z) - Incremental Search Space Construction for Machine Learning Pipeline
Synthesis [4.060731229044571]
automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。
パイプライン構築のためのメタ機能に基づくデータ中心アプローチを提案する。
確立されたAutoMLベンチマークで使用した28データセットに対して,アプローチの有効性と競争性を実証する。
論文 参考訳(メタデータ) (2021-01-26T17:17:49Z) - FDApy: a Python package for functional data [0.0]
FDApyは、機能データを分析するためのオープンソースのPythonパッケージである。
FDApyは、異なる次元領域で定義された機能データの表現と、不規則にサンプリングされる機能データのためのツールを提供する。
ドキュメントにはインストールと使用指示、シミュレートされた実際のデータセットの例、APIの完全な記述が含まれている。
論文 参考訳(メタデータ) (2021-01-26T10:07:33Z) - Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。
対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。
我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文 参考訳(メタデータ) (2020-09-24T00:35:26Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。
Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文 参考訳(メタデータ) (2020-02-03T16:43:02Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。