論文の概要: ptype-cat: Inferring the Type and Values of Categorical Variables
- arxiv url: http://arxiv.org/abs/2111.11956v1
- Date: Tue, 23 Nov 2021 15:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 17:21:42.739753
- Title: ptype-cat: Inferring the Type and Values of Categorical Variables
- Title(参考訳): ptype-cat:カテゴリ変数の型と値の推測
- Authors: Taha Ceritli and Christopher K. I. Williams
- Abstract要約: 本稿では,一般的な分類型を識別できる確率型推論手法を提案する。
また,既存の型推論手法ptypeを適用することにより,各カテゴリ変数の可能な値も同定する。
- 参考スコア(独自算出の注目度): 4.454557728745761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Type inference is the task of identifying the type of values in a data column
and has been studied extensively in the literature. Most existing type
inference methods support data types such as Boolean, date, float, integer and
string. However, these methods do not consider non-Boolean categorical
variables, where there are more than two possible values encoded by integers or
strings. Therefore, such columns are annotated either as integer or string
rather than categorical, and need to be transformed into categorical manually
by the user. In this paper, we propose a probabilistic type inference method
that can identify the general categorical data type (including non-Boolean
variables). Additionally, we identify the possible values of each categorical
variable by adapting the existing type inference method ptype. Combining these
methods, we present ptype-cat which achieves better results than existing
applicable solutions.
- Abstract(参考訳): 型推論はデータ列内の値の型を特定するタスクであり、文献で広く研究されている。
既存の型推論メソッドの多くは、boolean、date、float、integer、stringといったデータ型をサポートする。
しかしながら、これらのメソッドは整数や文字列によって符号化される2つ以上の可能な値が存在する非ブール分類変数を考慮しない。
そのため、このような列は分類ではなく整数または文字列として注釈付けされ、ユーザが手動で分類に変換する必要がある。
本稿では,一般のカテゴリーデータ型(非ブール変数を含む)を同定できる確率型推論手法を提案する。
さらに,既存の型推論手法ptypeを適用することにより,各カテゴリ変数の可能な値を特定する。
これらの手法を組み合わせることで,既存の適用ソリューションよりも優れた結果が得られるptype-catを提案する。
関連論文リスト
- TIGER: A Generating-Then-Ranking Framework for Practical Python Type Inference [16.192704604206206]
Pythonの動的型付けシステムは柔軟性と表現力を提供するが、型関連のエラーにつながる可能性がある。
TIGERはPythonの多様な型カテゴリを扱うための2段階生成レベル(GTR)フレームワークである。
ManyTypes4Pyデータセットに対する評価は、TIGERが様々な型カテゴリの既存のメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-02T09:29:02Z) - AdaTyper: Adaptive Semantic Column Type Detection [4.062265896931587]
私たちはAdaTyperを提案し、最も重要なデプロイメント課題の1つに対処します。
AdaTyperは弱いスーパービジョンを使用して、ハイブリッド型予測器を新しいセマンティックタイプに適応し、推論時にデータ分散をシフトする。
クラウドソーシングによる実世界のデータベーステーブル上でのAdaTyperの適応性能の評価を行った。
論文 参考訳(メタデータ) (2023-11-23T04:42:27Z) - Generative Type Inference for Python [62.01560866916557]
本稿では静的解析から静的ドメイン知識を取り入れた数ショットの生成型推論手法であるTypeGenを紹介する。
TypeGenは、静的解析の型推論ステップを、型依存グラフ(TDG)に基づいたプロンプトに変換することで、COTプロンプトを生成する。
実験の結果、TypeGenは引数型予測では10.0%、Top-1 Exact Matchでは22.5%で最高のベースラインであるType4Pyを上回っている。
論文 参考訳(メタデータ) (2023-07-18T11:40:31Z) - TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。
本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。
また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文 参考訳(メタデータ) (2023-03-16T23:48:00Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Query and Extract: Refining Event Extraction as Type-oriented Binary
Decoding [51.57864297948228]
本稿では,自然言語クエリとしてイベントタイプと引数ロールを取り入れた新しいイベント抽出フレームワークを提案する。
我々のフレームワークは、イベントタイプや引数ロールと入力テキストとのセマンティックな相関をよりよく捉えるための注意機構の恩恵を受ける。
論文 参考訳(メタデータ) (2021-10-14T15:49:40Z) - Cluster-based Mention Typing for Named Entity Disambiguation [0.0]
クラスタベースの参照型付けは、そのコンテキストに基づいて、与えられた参照の型を予測するために提案される。
複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。
本システムは, 4つのデファクトテストセットの最先端レベルに関して, ランダム化テストに基づいて, より優れた, あるいは同等の結果を得る。
論文 参考訳(メタデータ) (2021-09-23T14:19:20Z) - Type4Py: Deep Similarity Learning-Based Type Inference for Python [9.956021565144662]
類似度学習に基づくpythonの型推論モデルであるtype4pyを提案する。
高次元空間における同種の型と異種の型を区別することを学ぶ階層的ニューラルネットワークモデルを設計する。
Top-1の予測を考えると、Type4PyはTypilusとTypeWriterよりも19.33%、13.49%高い精度である。
論文 参考訳(メタデータ) (2021-01-12T13:32:53Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - LambdaNet: Probabilistic Type Inference using Graph Neural Networks [46.66093127573704]
本稿では,グラフニューラルネットワークに基づくTypeScriptの確率型推論手法を提案する。
弊社のアプローチでは、数値や文字列などの標準型と、トレーニング中に遭遇していないユーザ定義型の両方を予測できる。
論文 参考訳(メタデータ) (2020-04-29T17:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。