論文の概要: ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference
- arxiv url: http://arxiv.org/abs/2104.04706v1
- Date: Sat, 10 Apr 2021 08:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 05:05:42.739662
- Title: ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference
- Title(参考訳): ManyTypes4Py: 機械学習ベースの型推論のためのベンチマークPythonデータセット
- Authors: Amir M. Mir, Evaldas Latoskinas, Georgios Gousios
- Abstract要約: ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
- 参考スコア(独自算出の注目度): 9.384801062680786
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present ManyTypes4Py, a large Python dataset for machine
learning (ML)-based type inference. The dataset contains a total of 5,382
Python projects with more than 869K type annotations. Duplicate source code
files were removed to eliminate the negative effect of the duplication bias. To
facilitate training and evaluation of ML models, the dataset was split into
training, validation and test sets by files. To extract type information from
abstract syntax trees (ASTs), a lightweight static analyzer pipeline is
developed and accompanied with the dataset. Using this pipeline, the collected
Python projects were analyzed and the results of the AST analysis were stored
in JSON-formatted files. The ManyTypes4Py dataset is shared on zenodo and its
tools are publicly available on GitHub.
- Abstract(参考訳): 本稿では機械学習(ML)に基づく型推論のためのPythonデータセットであるMultiTypes4Pyを紹介する。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
重複するソースコードファイルは、重複バイアスの負の効果を排除するために削除された。
MLモデルのトレーニングと評価を容易にするため、データセットはファイルによるトレーニング、検証、テストセットに分割された。
抽象構文木(AST)から型情報を抽出するために、軽量な静的アナライザパイプラインを開発し、データセットを添付する。
このパイプラインを使用して収集したPythonプロジェクトを解析し、AST分析の結果をJSON形式のファイルに格納した。
ManyTypes4Pyデータセットはzenodoで共有されており、そのツールはGitHubで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow [10.19019476978683]
データセットは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均を含む例を提供する。
Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
論文 参考訳(メタデータ) (2024-09-25T11:18:52Z) - RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content [13.187520657952263]
大規模言語モデル(LLM)は大量のデータに基づいて訓練されており、そのほとんどは自動的にインターネットから取り除かれる。
トレーニングセットに漏れたかもしれない テストスプリットのモデルを評価する 結論を誤解させる傾向がある
本稿では,質問応答とトピック検索タスクに適したRepLiQAという新しいテストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:52:54Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - InPars-v2: Large Language Models as Efficient Dataset Generators for
Information Retrieval [4.888022358881737]
InPars-v2は、オープンソースのLLMと強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。
InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-01-04T20:58:43Z) - Evaluating the Impact of Source Code Parsers on ML4SE Models [3.699097874146491]
名前予測言語でSupernorm2SeqとTreeLSTMの2つのモデルを評価する。
異なる木によって構築された木は、その構造や内容によって異なることを示す。
そして、この多様性がモデルの品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-06-17T12:10:04Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Deepchecks: A Library for Testing and Validating Machine Learning Models
and Data [8.876608553825227]
Deepchecksは、機械学習モデルとデータを包括的に検証するPythonライブラリである。
我々のゴールは、様々な種類の問題に関連する多くのチェックからなる使いやすいライブラリを提供することです。
論文 参考訳(メタデータ) (2022-03-16T09:37:22Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。