Fugu-MT 論文翻訳(概要): Learning the Relation between Code Features and Code Transforms with Structured Prediction

論文の概要: Learning the Relation between Code Features and Code Transforms with Structured Prediction

arxiv url: http://arxiv.org/abs/1907.09282v2
Date: Fri, 2 Jun 2023 23:19:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 06:29:37.171584
Title: Learning the Relation between Code Features and Code Transforms with Structured Prediction
Title（参考訳）: 構造化予測によるコード特徴とコード変換の関係の学習
Authors: Zhongxing Yu, Matias Martinez, Zimin Chen, Tegawend\'e F. Bissyand\'e, Martin Monperrus
Abstract要約: 条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
参考スコア（独自算出の注目度）: 13.62633524166298
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To effectively guide the exploration of the code transform space for automated code evolution techniques, we present in this paper the first approach for structurally predicting code transforms at the level of AST nodes using conditional random fields (CRFs). Our approach first learns offline a probabilistic model that captures how certain code transforms are applied to certain AST nodes, and then uses the learned model to predict transforms for arbitrary new, unseen code snippets. {Our approach involves a novel representation of both programs and code transforms. Specifically, we introduce the formal framework for defining the so-called AST-level code transforms and we demonstrate how the CRF model can be accordingly designed, learned, and used for prediction}. We instantiate our approach in the context of repair transform prediction for Java programs. Our instantiation contains a set of carefully designed code features, deals with the training data imbalance issue, and comprises transform constraints that are specific to code. We conduct a large-scale experimental evaluation based on a dataset of bug fixing commits from real-world Java projects. The results show that when the popular evaluation metric \emph{top-3} is used, our approach predicts the code transforms with an accuracy varying from 41\% to 53\% depending on the transforms. Our model outperforms two baselines based on history probability and neural machine translation (NMT), suggesting the importance of considering code structure in achieving good prediction accuracy. In addition, a proof-of-concept synthesizer is implemented to concretize some repair transforms to get the final patches. The evaluation of the synthesizer on the Defects4j benchmark confirms the usefulness of the predicted AST-level repair transforms in producing high-quality patches.
Abstract（参考訳）: 本稿では,自動コード進化のためのコード変換空間の探索を効果的に導くために,条件付きランダムフィールド(CRF)を用いてASTノードのレベルでコード変換を構造的に予測する手法を提案する。このアプローチはまず、特定のASTノードに特定のコード変換を適用する方法をキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。私たちのアプローチでは、プログラムとコード変換の両方が新しく表現されます。具体的には、ASTレベルコード変換と呼ばれる形式的なフレームワークを導入し、CRFモデルがどのようにして設計され、学習され、予測に使用されるかを実証する。 Javaプログラムの修復変換予測の文脈で、我々のアプローチをインスタンス化する。私たちのインスタンス化には、注意深く設計されたコード機能が含まれ、トレーニングデータの不均衡に対処するとともに、コード特有の変換制約が含まれています。実世界のJavaプロジェクトからのバグ修正コミットのデータセットに基づいて,大規模な実験的評価を行う。その結果、一般的な評価基準である \emph{top-3} を用いると、変換によって精度が41\%から53\%に変化するコード変換を予測できることがわかった。本モデルは,履歴確率とニューラルマシン翻訳(NMT)に基づく2つのベースラインより優れており,高い予測精度を実現する上で,コード構造を考えることの重要性が示唆されている。さらに、コンセプタ・オブ・コンセプタ・シンセサイザーが実装され、いくつかの修復変換を合成して最終パッチを得る。 Defects4jベンチマークにおけるシンセサイザーの評価は、予測されたASTレベルの修復変換が高品質なパッチの生成に有用であることを確認する。

関連論文リスト

Semantic-Preserving Transformations as Mutation Operators: A Study on Their Effectiveness in Defect Detection [3.3590922002216197]
意味保存変換を実装した既存の出版物を収集し,その実装を共有する。欠陥検出ツールの強化のための3つの異なるアンサンブル戦略の有効性を実証的に検討した。この結果から,共有セマンティック保存変換の再利用は困難であり,時には意味論に悪影響を及ぼすことさえあることがわかった。
論文参考訳（メタデータ） (2025-03-30T14:00:22Z)
Converting Transformers into DGNNs Form [3.7468283401703797]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。 Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文参考訳（メタデータ） (2025-02-01T22:44:46Z)
A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。 ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文参考訳（メタデータ） (2024-12-15T13:04:29Z)
Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文参考訳（メタデータ） (2024-08-29T03:50:24Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。この問題は、長文生成のための言語モデリングにも見られる。本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文参考訳（メタデータ） (2023-04-14T00:01:05Z)
Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。 RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文参考訳（メタデータ） (2023-03-13T17:12:03Z)
A Closer Look into Transformer-Based Code Intelligence Through Code Transformation: Challenges and Opportunities [54.039855851891815]
トランスフォーマーベースのモデルは、多くのインテリジェントコーディングタスクにおいて最先端のパフォーマンスを示している。意味保存型コード変換がTransformerの性能に与える影響を実証研究する。
論文参考訳（メタデータ） (2022-07-09T15:02:39Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文参考訳（メタデータ） (2020-12-29T11:37:43Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。