論文の概要: ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference
- arxiv url: http://arxiv.org/abs/2104.04706v1
- Date: Sat, 10 Apr 2021 08:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 05:05:42.739662
- Title: ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference
- Title(参考訳): ManyTypes4Py: 機械学習ベースの型推論のためのベンチマークPythonデータセット
- Authors: Amir M. Mir, Evaldas Latoskinas, Georgios Gousios
- Abstract要約: ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
- 参考スコア(独自算出の注目度): 9.384801062680786
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present ManyTypes4Py, a large Python dataset for machine
learning (ML)-based type inference. The dataset contains a total of 5,382
Python projects with more than 869K type annotations. Duplicate source code
files were removed to eliminate the negative effect of the duplication bias. To
facilitate training and evaluation of ML models, the dataset was split into
training, validation and test sets by files. To extract type information from
abstract syntax trees (ASTs), a lightweight static analyzer pipeline is
developed and accompanied with the dataset. Using this pipeline, the collected
Python projects were analyzed and the results of the AST analysis were stored
in JSON-formatted files. The ManyTypes4Py dataset is shared on zenodo and its
tools are publicly available on GitHub.
- Abstract(参考訳): 本稿では機械学習(ML)に基づく型推論のためのPythonデータセットであるMultiTypes4Pyを紹介する。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
重複するソースコードファイルは、重複バイアスの負の効果を排除するために削除された。
MLモデルのトレーニングと評価を容易にするため、データセットはファイルによるトレーニング、検証、テストセットに分割された。
抽象構文木(AST)から型情報を抽出するために、軽量な静的アナライザパイプラインを開発し、データセットを添付する。
このパイプラインを使用して収集したPythonプロジェクトを解析し、AST分析の結果をJSON形式のファイルに格納した。
ManyTypes4Pyデータセットはzenodoで共有されており、そのツールはGitHubで公開されている。
関連論文リスト
- SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - InPars-v2: Large Language Models as Efficient Dataset Generators for
Information Retrieval [4.888022358881737]
InPars-v2は、オープンソースのLLMと強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。
InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-01-04T20:58:43Z) - Evaluating the Impact of Source Code Parsers on ML4SE Models [3.699097874146491]
名前予測言語でSupernorm2SeqとTreeLSTMの2つのモデルを評価する。
異なる木によって構築された木は、その構造や内容によって異なることを示す。
そして、この多様性がモデルの品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-06-17T12:10:04Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Deepchecks: A Library for Testing and Validating Machine Learning Models
and Data [8.876608553825227]
Deepchecksは、機械学習モデルとデータを包括的に検証するPythonライブラリである。
我々のゴールは、様々な種類の問題に関連する多くのチェックからなる使いやすいライブラリを提供することです。
論文 参考訳(メタデータ) (2022-03-16T09:37:22Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - PTRAIL -- A python package for parallel trajectory data preprocessing [2.348339658768759]
軌道データは、時間とともに空間における位置を変化させる物体の痕跡を表す。
トラジェクトリデータを前処理するように特別に調整されたソフトウェアが必要である。
提案するPTRAILは,数ステップの軌道前処理を行うピソンパッケージである。
論文 参考訳(メタデータ) (2021-08-26T20:14:07Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。