論文の概要: From Strings to Data Science: a Practical Framework for Automated String
Handling
- arxiv url: http://arxiv.org/abs/2111.01868v1
- Date: Tue, 2 Nov 2021 20:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 01:26:34.777997
- Title: From Strings to Data Science: a Practical Framework for Automated String
Handling
- Title(参考訳): 文字列からデータサイエンスへ - 文字列の自動処理のための実践的フレームワーク
- Authors: John W. van Lith and Joaquin Vanschoren
- Abstract要約: 多くの機械学習ライブラリは、意図した通りに動作するために文字列機能を数値表現に変換する必要がある。
本稿では,ベストプラクティス,ドメイン知識,新しい技術に基づく枠組みを提案する。
異なるタイプの文字列の特徴を自動的に識別し、それに従って処理し、それらを数値表現にエンコードする。
- 参考スコア(独自算出の注目度): 0.4079265319364249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning libraries require that string features be converted to
a numerical representation for the models to work as intended. Categorical
string features can represent a wide variety of data (e.g., zip codes, names,
marital status), and are notoriously difficult to preprocess automatically. In
this paper, we propose a framework to do so based on best practices, domain
knowledge, and novel techniques. It automatically identifies different types of
string features, processes them accordingly, and encodes them into numerical
representations. We also provide an open source Python implementation to
automatically preprocess categorical string data in tabular datasets and
demonstrate promising results on a wide range of datasets.
- Abstract(参考訳): 多くの機械学習ライブラリは、モデルの意図した動作のために、文字列機能を数値表現に変換する必要がある。
カテゴリ文字列機能は、様々なデータ(例えば、zipコード、名前、結婚状態)を表現でき、自動で前処理するのは非常に難しい。
本稿では,ベストプラクティス,ドメイン知識,新しい技術に基づく枠組みを提案する。
異なるタイプの文字列の特徴を自動的に識別し、それに従って処理し、数値表現にエンコードする。
また、オープンソースのPython実装で、表形式のデータセットで分類文字列を自動的に前処理し、幅広いデータセットで有望な結果を示す。
関連論文リスト
- Vectorizing string entries for data processing on tables: when are
larger language models better? [1.0840985826142429]
テーブル上の14の分析課題における言語モデルの利点について検討する。
より大きな言語モデルはより良い性能を示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。
論文 参考訳(メタデータ) (2023-12-15T09:23:56Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Numeric Encoding Options with Automunge [0.0]
本稿では,ディープラーニングにおける数値ストリームの拡張符号化の潜在的なメリットについて論じる。
提案は、Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換オプションに基づいている。
論文 参考訳(メタデータ) (2022-02-19T02:21:03Z) - Multilingual training for Software Engineering [0.0]
異なる言語(同じ機能を持つ)の人間が書いたコードとはかなりよく似ていることを示す証拠を提示する。
本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。
このデータ拡張アプローチは、さまざまなタスク、言語、マシンラーニングモデルと広く互換性がある。
論文 参考訳(メタデータ) (2021-12-03T17:47:00Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Mill.jl and JsonGrinder.jl: automated differentiable feature extraction
for learning from raw JSON data [0.0]
生のデータ入力から学ぶことは、機械学習の手法を成功させるために重要な要素の1つである。
生のデータ入力から学ぶことは、機械学習の手法を成功させるために重要な要素の1つである。
論文 参考訳(メタデータ) (2021-05-19T13:02:10Z) - Data Engineering for HPC with Python [0.0]
データエンジニアリングは、さまざまなデータフォーマット、ストレージ、データ抽出、変換、データ移動を扱う。
データエンジニアリングの1つのゴールは、データを元のデータから、ディープラーニングや機械学習アプリケーションで受け入れられるベクトル/行列/テンソルフォーマットに変換することである。
データを表現および処理するためのテーブル抽象化に基づく分散Python APIを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:11Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。