論文の概要: Learning the Relation between Code Features and Code Transforms with
Structured Prediction
- arxiv url: http://arxiv.org/abs/1907.09282v2
- Date: Fri, 2 Jun 2023 23:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 06:29:37.171584
- Title: Learning the Relation between Code Features and Code Transforms with
Structured Prediction
- Title(参考訳): 構造化予測によるコード特徴とコード変換の関係の学習
- Authors: Zhongxing Yu, Matias Martinez, Zimin Chen, Tegawend\'e F. Bissyand\'e,
Martin Monperrus
- Abstract要約: 条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
- 参考スコア(独自算出の注目度): 13.62633524166298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively guide the exploration of the code transform space for
automated code evolution techniques, we present in this paper the first
approach for structurally predicting code transforms at the level of AST nodes
using conditional random fields (CRFs). Our approach first learns offline a
probabilistic model that captures how certain code transforms are applied to
certain AST nodes, and then uses the learned model to predict transforms for
arbitrary new, unseen code snippets. {Our approach involves a novel
representation of both programs and code transforms. Specifically, we introduce
the formal framework for defining the so-called AST-level code transforms and
we demonstrate how the CRF model can be accordingly designed, learned, and used
for prediction}. We instantiate our approach in the context of repair transform
prediction for Java programs. Our instantiation contains a set of carefully
designed code features, deals with the training data imbalance issue, and
comprises transform constraints that are specific to code. We conduct a
large-scale experimental evaluation based on a dataset of bug fixing commits
from real-world Java projects. The results show that when the popular
evaluation metric \emph{top-3} is used, our approach predicts the code
transforms with an accuracy varying from 41\% to 53\% depending on the
transforms. Our model outperforms two baselines based on history probability
and neural machine translation (NMT), suggesting the importance of considering
code structure in achieving good prediction accuracy. In addition, a
proof-of-concept synthesizer is implemented to concretize some repair
transforms to get the final patches. The evaluation of the synthesizer on the
Defects4j benchmark confirms the usefulness of the predicted AST-level repair
transforms in producing high-quality patches.
- Abstract(参考訳): 本稿では,自動コード進化のためのコード変換空間の探索を効果的に導くために,条件付きランダムフィールド(CRF)を用いてASTノードのレベルでコード変換を構造的に予測する手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換を適用する方法をキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
私たちのアプローチでは、プログラムとコード変換の両方が新しく表現されます。
具体的には、ASTレベルコード変換と呼ばれる形式的なフレームワークを導入し、CRFモデルがどのようにして設計され、学習され、予測に使用されるかを実証する。
Javaプログラムの修復変換予測の文脈で、我々のアプローチをインスタンス化する。
私たちのインスタンス化には、注意深く設計されたコード機能が含まれ、トレーニングデータの不均衡に対処するとともに、コード特有の変換制約が含まれています。
実世界のJavaプロジェクトからのバグ修正コミットのデータセットに基づいて,大規模な実験的評価を行う。
その結果、一般的な評価基準である \emph{top-3} を用いると、変換によって精度が41\%から53\%に変化するコード変換を予測できることがわかった。
本モデルは,履歴確率とニューラルマシン翻訳(NMT)に基づく2つのベースラインより優れており,高い予測精度を実現する上で,コード構造を考えることの重要性が示唆されている。
さらに、コンセプタ・オブ・コンセプタ・シンセサイザーが実装され、いくつかの修復変換を合成して最終パッチを得る。
Defects4jベンチマークにおけるシンセサイザーの評価は、予測されたASTレベルの修復変換が高品質なパッチの生成に有用であることを確認する。
関連論文リスト
- Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。