論文の概要: Parsed Categoric Encodings with Automunge
- arxiv url: http://arxiv.org/abs/2202.09498v2
- Date: Tue, 22 Feb 2022 21:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 15:26:02.153450
- Title: Parsed Categoric Encodings with Automunge
- Title(参考訳): Automungeでパースされたカテゴリエンコーディング
- Authors: Nicholas J. Teague
- Abstract要約: Automungeは、数値エンコーディングと欠落データインフィルの機能エンジニアリングデータ変換を前処理するオープンソースプラットフォームである。
変換は、世代と派生の分岐を持つ「ファミリーツリー」集合の異なる列に適用することができる。
これらの手法を「ファミリーツリー」変換の集合に集約することで、分類文字列の合成から構造を自動的に抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Automunge open source python library platform for tabular data
pre-processing automates feature engineering data transformations of numerical
encoding and missing data infill to received tidy data on bases fit to
properties of columns in a designated train set for consistent and efficient
application to subsequent data pipelines such as for inference, where
transformations may be applied to distinct columns in "family tree" sets with
generations and branches of derivations. Included in the library of
transformations are methods to extract structure from bounded categorical
string sets by way of automated string parsing, in which comparisons between
entries in the set of unique values are parsed to identify character subset
overlaps which may be encoded by appended columns of boolean overlap detection
activations or by replacing string entries with identified overlap partitions.
Further string parsing options, which may also be applied to unbounded
categoric sets, include extraction of numeric substring partitions from entries
or search functions to identify presence of specified substring partitions. The
aggregation of these methods into "family tree" sets of transformations are
demonstrated for use to automatically extract structure from categoric string
compositions in relation to the set of entries in a column, such as may be
applied to prepare categoric string set encodings for machine learning without
human intervention.
- Abstract(参考訳): タブ形式のデータ前処理のためのAutomungeのオープンソースのpythonライブラリプラットフォームは、数値エンコーディングと欠落したデータ入力による機能エンジニアリングデータ変換を自動化し、列のプロパティに適合するベース上で、推論などのその後のデータパイプラインへの一貫性と効率の確保を目的としている。
変換ライブラリには、自動文字列解析によって有界な分類文字列集合から構造を抽出する手法が含まれており、一意値の集合におけるエントリ間の比較を解析して、ブール重複検出アクティベーションの付加列によってエンコードされる文字サブセットの重複を特定するか、あるいは、文字列エントリを識別された重複分割で置き換える。
さらに文字列解析オプションは、非有界なカテゴリ集合にも適用でき、エントリや検索関数から数値的なサブストリングパーティションを抽出して特定のサブストリングパーティションの存在を特定する。
これらの手法の「ファミリーツリー」変換集合への集約は、人間の介入なしに機械学習のためのカテゴリ文字列セットエンコーディングを作成するように、列内のエントリのセットに関連するカテゴリ文字列合成から構造を自動的に抽出するために使用される。
関連論文リスト
- Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains [0.565395466029518]
そこで本研究では,古典的ビンニング手法に基づく新しいプレテキストタスクを提案する。
その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。
我々の実証調査では、ビンニングの利点がいくつか確認されている。
論文 参考訳(メタデータ) (2024-05-13T01:23:14Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Numeric Encoding Options with Automunge [0.0]
本稿では,ディープラーニングにおける数値ストリームの拡張符号化の潜在的なメリットについて論じる。
提案は、Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換オプションに基づいている。
論文 参考訳(メタデータ) (2022-02-19T02:21:03Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Graph-Based Decoding for Task Oriented Semantic Parsing [16.054030490095464]
セマンティック解析を依存性解析タスクとして定式化し、構文解析のために開発されたグラフベースの復号法を適用した。
グラフベースのアプローチは、標準設定のシーケンスデコーダと競合し、部分的に注釈付けされたデータが利用できるようなデータ効率と設定を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-09-09T23:22:09Z) - Not All Linearizations Are Equally Data-Hungry in Sequence Labeling
Parsing [19.9169198376948]
依存関係解析をシーケンスラベリングとしてキャストするために線形化が提案されている。
我々は、これらの線形化が低リソースのセットアップでどのように振る舞うかを研究する。
その結果、ヘッドセレクション符号化はよりデータ効率が高く、理想的なフレームワークでより優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-08-17T10:47:30Z) - Glushkov's construction for functional subsequential transducers [91.3755431537592]
グルシコフの構成は多くの興味深い性質を持ち、トランスデューサに適用するとさらに明らかになる。
正規表現の特別な風味を導入し、効率よく$epsilon$-free 機能的次数重み付き有限状態トランスデューサに変換することができる。
論文 参考訳(メタデータ) (2020-08-05T17:09:58Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。