論文の概要: Evaluating the Impact of Source Code Parsers on ML4SE Models
- arxiv url: http://arxiv.org/abs/2206.08713v1
- Date: Fri, 17 Jun 2022 12:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 15:09:42.309825
- Title: Evaluating the Impact of Source Code Parsers on ML4SE Models
- Title(参考訳): ML4SEモデルにおけるソースコードパーザの影響評価
- Authors: Ilya Utkin, Egor Spirin, Egor Bogomolov, Timofey Bryksin
- Abstract要約: 名前予測言語でSupernorm2SeqとTreeLSTMの2つのモデルを評価する。
異なる木によって構築された木は、その構造や内容によって異なることを示す。
そして、この多様性がモデルの品質にどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 3.699097874146491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As researchers and practitioners apply Machine Learning to increasingly more
software engineering problems, the approaches they use become more
sophisticated. A lot of modern approaches utilize internal code structure in
the form of an abstract syntax tree (AST) or its extensions: path-based
representation, complex graph combining AST with additional edges. Even though
the process of extracting ASTs from code can be done with different parsers,
the impact of choosing a parser on the final model quality remains unstudied.
Moreover, researchers often omit the exact details of extracting particular
code representations.
In this work, we evaluate two models, namely Code2Seq and TreeLSTM, in the
method name prediction task backed by eight different parsers for the Java
language. To unify the process of data preparation with different parsers, we
develop SuperParser, a multi-language parser-agnostic library based on
PathMiner. SuperParser facilitates the end-to-end creation of datasets suitable
for training and evaluation of ML models that work with structural information
from source code. Our results demonstrate that trees built by different parsers
vary in their structure and content. We then analyze how this diversity affects
the models' quality and show that the quality gap between the most and least
suitable parsers for both models turns out to be significant. Finally, we
discuss other features of the parsers that researchers and practitioners should
take into account when selecting a parser along with the impact on the models'
quality.
The code of SuperParser is publicly available at
https://doi.org/10.5281/zenodo.6366591. We also publish Java-norm, the dataset
we use to evaluate the models: https://doi.org/10.5281/zenodo.6366599.
- Abstract(参考訳): 研究者や実践者が機械学習を、ますます多くのソフトウェアエンジニアリング問題に適用するにつれ、彼らが使用するアプローチはより洗練されていく。
現代的なアプローチの多くは、抽象構文木(AST)またはその拡張(パスベースの表現、ASTと追加のエッジを組み合わせた複雑なグラフ)の形で内部コード構造を利用する。
コードからASTを抽出するプロセスは異なるパーサーで行うことができるが、パーサーの選択が最終的なモデル品質に与える影響は未検討である。
さらに、研究者はしばしば特定のコード表現を抽出する正確な詳細を省略する。
本研究では,Java言語の8つの異なるパーサが支援するメソッド名予測タスクにおいて,Code2SeqとTreeLSTMの2つのモデルを評価する。
そこで我々は,PathMinerをベースとした多言語構文解析ライブラリであるSuperParserを開発した。
SuperParserは、ソースコードから構造情報を扱うMLモデルのトレーニングと評価に適したデータセットのエンドツーエンド作成を容易にする。
その結果,異なるパーサによって構築される木は,その構造や内容によって異なることがわかった。
そして、この多様性がモデルの品質にどのように影響するかを分析し、両方のモデルの最も適したパーサーと最も適さないパーサー間の品質ギャップが重要であることを示した。
最後に、モデル品質への影響とともに、研究者や実践者がパーサーを選択する際に考慮すべきパーサーの他の特徴について論じる。
SuperParserのコードはhttps://doi.org/10.5281/zenodo.6366591で公開されている。
また、モデルを評価するために使用するデータセットであるjava-normも公開しています。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - MRL Parsing Without Tears: The Case of Hebrew [14.104766026682384]
形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。
決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。
この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:54:33Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary [9.347252855045125]
我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。
我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
論文 参考訳(メタデータ) (2020-10-23T22:58:26Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。