論文の概要: Numeric Encoding Options with Automunge
- arxiv url: http://arxiv.org/abs/2202.09496v1
- Date: Sat, 19 Feb 2022 02:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 15:47:27.711985
- Title: Numeric Encoding Options with Automunge
- Title(参考訳): Automungeによる数値エンコーディングオプション
- Authors: Nicholas J. Teague
- Abstract要約: 本稿では,ディープラーニングにおける数値ストリームの拡張符号化の潜在的なメリットについて論じる。
提案は、Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換オプションに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mainstream practice in machine learning with tabular data may take for
granted that any feature engineering beyond scaling for numeric sets is
superfluous in context of deep neural networks. This paper will offer arguments
for potential benefits of extended encodings of numeric streams in deep
learning by way of a survey of options for numeric transformations as available
in the Automunge open source python library platform for tabular data
pipelines, where transformations may be applied to distinct columns in "family
tree" sets with generations and branches of derivations. Automunge
transformation options include normalization, binning, noise injection,
derivatives, and more. The aggregation of these methods into family tree sets
of transformations are demonstrated for use to present numeric features to
machine learning in multiple configurations of varying information content, as
may be applied to encode numeric sets of unknown interpretation. Experiments
demonstrate the realization of a novel generalized solution to data
augmentation by noise injection for tabular learning, as may materially benefit
model performance in applications with underserved training data.
- Abstract(参考訳): 表データを使った機械学習の主流的プラクティスは、数値集合のスケーリング以外の機能エンジニアリングがディープニューラルネットワークのコンテキストにおいて過剰であるという点で当然のことだ。
本稿では、グラフデータパイプライン用Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換の選択肢を調査することで、ディープラーニングにおける数値ストリームのエンコーディングの拡張による潜在的なメリットについて論じる。
Automunge変換オプションには、正規化、ビンニング、ノイズ注入、デリバティブなどが含まれる。
これらの手法のファミリツリー変換集合への集約は、未知の解釈の数値集合を符号化するために用いられるように、様々な情報内容の複数の構成で機械学習に数値特徴を提示するために用いられる。
実験は、表型学習のためのノイズインジェクションによるデータ拡張に対する新しい一般化解の実現を実証する。
関連論文リスト
- TabulaX: Leveraging Large Language Models for Multi-Class Table Transformations [8.072353085704627]
本稿では,多クラス変換にLarge Language Models(LLM)を利用する新しいフレームワークであるTabulaXを紹介する。
本研究では,TabulaXが既存の最先端手法よりも精度が高く,より広範な変換クラスをサポートし,効率的に適用可能な解釈可能な変換を生成することを示す。
論文 参考訳(メタデータ) (2024-11-26T05:00:23Z) - Deep Feature Embedding for Tabular Data [2.1301560294088318]
本稿では,軽量なディープニューラルネットワークを利用した新しいディープ埋め込みフレームワークを提案する。
数値的特徴量には、2段階の特徴展開と深層変換法が用いられる。
実世界のデータセットを用いて実験を行い、性能評価を行った。
論文 参考訳(メタデータ) (2024-08-30T10:05:24Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - A Configurable Library for Generating and Manipulating Maze Datasets [0.9268994664916388]
迷路は様々な生成アルゴリズムのために優れたテストベッドとして機能する。
我々は、maze-solvingタスクからなるデータセットの生成、処理、視覚化のための包括的なライブラリである、$textttmaze-dataset$を提示する。
論文 参考訳(メタデータ) (2023-09-19T10:20:11Z) - Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance
Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。
階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。
これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。
我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文 参考訳(メタデータ) (2022-08-04T14:48:37Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。