論文の概要: Inferring Pluggable Types with Machine Learning
- arxiv url: http://arxiv.org/abs/2406.15676v1
- Date: Fri, 21 Jun 2024 22:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:04:37.169968
- Title: Inferring Pluggable Types with Machine Learning
- Title(参考訳): プラガブルな型を機械学習で推論する
- Authors: Kazi Amanul Islam Siddiqui, Martin Kellogg,
- Abstract要約: 本稿では,機械学習を用いて型付き修飾子を自動的に推論する方法について検討する。
本稿では,最小限のデータフローヒントを符号化した新しい表現NaP-ASTを提案する。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pluggable type systems allow programmers to extend the type system of a programming language to enforce semantic properties defined by the programmer. Pluggable type systems are difficult to deploy in legacy codebases because they require programmers to write type annotations manually. This paper investigates how to use machine learning to infer type qualifiers automatically. We propose a novel representation, NaP-AST, that encodes minimal dataflow hints for the effective inference of type qualifiers. We evaluate several model architectures for inferring type qualifiers, including Graph Transformer Network, Graph Convolutional Network and Large Language Model. We further validated these models by applying them to 12 open-source programs from a prior evaluation of the NullAway pluggable typechecker, lowering warnings in all but one unannotated project. We discovered that GTN shows the best performance, with a recall of .89 and precision of 0.6. Furthermore, we conduct a study to estimate the number of Java classes needed for good performance of the trained model. For our feasibility study, performance improved around 16k classes, and deteriorated due to overfitting around 22k classes.
- Abstract(参考訳): プラグイン可能な型システムにより、プログラマはプログラミング言語の型システムを拡張して、プログラマによって定義されたセマンティックプロパティを強制することができる。
プラグイン可能な型システムは、プログラマが手動で型アノテーションを書く必要があるため、レガシーコードベースにデプロイするのは難しい。
本稿では,機械学習を用いて型付き修飾子を自動的に推論する方法について検討する。
本稿では,最小限のデータフローヒントを符号化した新しい表現NaP-ASTを提案する。
本稿では,グラフ変換器ネットワーク,グラフ畳み込みネットワーク,大規模言語モデルなど,型修飾器を推定するためのモデルアーキテクチャについて検討する。
我々はこれらのモデルをNullAwayプラグイン型チェッカーの事前評価から12のオープンソースプログラムに適用することでさらに検証した。
GTNは89のリコールと0.6の精度で最高のパフォーマンスを示した。
さらに、トレーニングされたモデルの優れたパフォーマンスに必要なJavaクラス数を推定する研究を行う。
実現可能性調査では,約16k級が改善し,約22k級がオーバーフィットし,性能が低下した。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Learning Type Inference for Enhanced Dataflow Analysis [6.999203506253375]
我々は、型アノテーションを確実に予測するように訓練されたTransformerベースのモデルであるCodeTIDAL5を提案する。
私たちのモデルは、MaryTypes4TypeScriptベンチマークで現在の最先端を7.85%上回っています。
JoernTIは、オープンソースの静的解析ツールであるJoernへの私たちのアプローチの統合です。
論文 参考訳(メタデータ) (2023-10-01T13:52:28Z) - Generative Type Inference for Python [62.01560866916557]
本稿では静的解析から静的ドメイン知識を取り入れた数ショットの生成型推論手法であるTypeGenを紹介する。
TypeGenは、静的解析の型推論ステップを、型依存グラフ(TDG)に基づいたプロンプトに変換することで、COTプロンプトを生成する。
実験の結果、TypeGenは引数型予測では10.0%、Top-1 Exact Matchでは22.5%で最高のベースラインであるType4Pyを上回っている。
論文 参考訳(メタデータ) (2023-07-18T11:40:31Z) - Type Prediction With Program Decomposition and Fill-in-the-Type Training [2.7998963147546143]
大規模な言語モデルを活用する型予測のための検索ベースのアプローチであるOpenTauを構築した。
TypeScriptの型予測のための新しいデータセットで作業を評価し、ファイルタイプチェックの47.4%(14.5%の絶対的改善)とファイル毎の3.3型のエラー率を示している。
論文 参考訳(メタデータ) (2023-05-25T21:16:09Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。
本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。
また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文 参考訳(メタデータ) (2023-03-16T23:48:00Z) - Type4Py: Deep Similarity Learning-Based Type Inference for Python [9.956021565144662]
類似度学習に基づくpythonの型推論モデルであるtype4pyを提案する。
高次元空間における同種の型と異種の型を区別することを学ぶ階層的ニューラルネットワークモデルを設計する。
Top-1の予測を考えると、Type4PyはTypilusとTypeWriterよりも19.33%、13.49%高い精度である。
論文 参考訳(メタデータ) (2021-01-12T13:32:53Z) - Advanced Graph-Based Deep Learning for Probabilistic Type Inference [0.8508198765617194]
本稿では,新しい型フローグラフ(TFG)表現で動作するグラフニューラルネットワーク(GNN)モデルについて紹介する。
我々のGNNモデルは、所定の入力プログラムに対してTFGの型ラベルを予測するために訓練されている。
我々の2つのGNN構成の精度は、それぞれ87.76%と86.89%である。
論文 参考訳(メタデータ) (2020-09-13T08:13:01Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - LambdaNet: Probabilistic Type Inference using Graph Neural Networks [46.66093127573704]
本稿では,グラフニューラルネットワークに基づくTypeScriptの確率型推論手法を提案する。
弊社のアプローチでは、数値や文字列などの標準型と、トレーニング中に遭遇していないユーザ定義型の両方を予測できる。
論文 参考訳(メタデータ) (2020-04-29T17:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。