論文の概要: A test-free semantic mistakes localization framework in Neural Code Translation
- arxiv url: http://arxiv.org/abs/2410.22818v1
- Date: Wed, 30 Oct 2024 08:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:22.294216
- Title: A test-free semantic mistakes localization framework in Neural Code Translation
- Title(参考訳): ニューラルコード翻訳におけるテスト不要な意味ミスの局所化フレームワーク
- Authors: Lei Chen, Sai Zhang, Fangzhou Xu, Zhenchang Xing, Liang Wan, Xiaowang Zhang, Zhiyong Feng,
- Abstract要約: 本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
- 参考スコア(独自算出の注目度): 32.5036379897325
- License:
- Abstract: In the task of code translation, neural network-based models have been shown to frequently produce semantically erroneous code that deviates from the original logic of the source code. This issue persists even with advanced large models. Although a recent approach proposed using test cases to identify these semantic errors, it relies heavily on the quality of the test cases and is not applicable to code snippets without test cases in real-world scenarios. Therefore, We present EISP, a static analysis framework based on the Large Language Model (LLM).First, the framework generates a semantic mapping between source code and translated code. Next, each sub-code fragment is identified by recursively traversing the abstract syntax tree of the source code, and its corresponding translated code fragment is found through the semantic mapping. Finally, EISP connects each pair of sub-code fragments with fine-grained knowledge hints through an AI chain to assist LLMs in discovering semantic mistakes in the translated code. In our benchmark evaluation, the EISP framework, based on GPT-4o mini, achieved an accuracy of 82.3\%, representing a 20.3\% improvement over baseline methods using the same base model, and a 7.4\% improvement compared to dynamic analysis methods that require test cases and manual intervention. To our knowledge, EISP is the first tool to locate semantic errors in translated code without test cases or compilable code. This innovative tool provides the software engineering community with a new way to deal with code fragments without test cases.
- Abstract(参考訳): コード翻訳のタスクでは、ニューラルネットワークベースのモデルは、ソースコードの本来の論理から逸脱した意味的に誤ったコードを生成することがしばしば示されている。
この問題は、先進的な大型モデルでも継続する。
最近のアプローチでは、これらのセマンティックエラーを特定するためにテストケースを使用することが提案されているが、テストケースの品質に大きく依存しており、実際のシナリオではテストケースのないコードスニペットには適用できない。
そこで我々は,Large Language Model (LLM)に基づく静的解析フレームワークであるEISPを提案する。
まず、このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
次に、ソースコードの抽象構文木を再帰的にトラバースすることで、各サブコードフラグメントを識別し、その対応するコードフラグメントをセマンティックマッピングにより見つける。
最後に、EISPは、各サブコードのフラグメントをAIチェーンを通じてきめ細かな知識ヒントで接続し、LLMを支援して、翻訳されたコードのセマンティックなミスを発見する。
ベンチマーク評価では, GPT-4o mini をベースとした EISP フレームワークの精度は 82.3 % であり,同じベースモデルを用いたベースライン手法よりも 20.3 % 向上し,テストケースや手動操作を必要とする動的解析手法に比べて 7.4 % 向上した。
私たちの知る限り、EISPは、テストケースやコンパイル可能なコードなしで翻訳されたコードのセマンティックエラーを特定する最初のツールです。
この革新的なツールは、ソフトウェアエンジニアリングコミュニティに、テストケースなしでコードフラグメントを扱う新しい方法を提供する。
関連論文リスト
- Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。
構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文 参考訳(メタデータ) (2024-07-04T04:24:43Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - Neural Models for Source Code Synthesis and Completion [0.0]
コード提案システムへの自然言語(NL)は、NL発話をコンパイル可能なコードスニペットに変換することで、統合開発環境(IDE)の開発者を支援する。
現在のアプローチは主に意味解析に基づくハードコードなルールベースのシステムである。
我々は,NLを汎用プログラミング言語にマッピングするためのシーケンス・ツー・シーケンス深層学習モデルと訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-08T17:10:12Z) - Probing Semantic Grounding in Language Models of Code with
Representational Similarity Analysis [0.11470070927586018]
本稿では,コード言語モデルにおける意味的グラウンドリングの探索にRepresentational similarity Analysisを用いることを提案する。
我々は,IBM CodeNetデータセットのデータを用いて,意味的接地のためのCodeBERTモデルから表現を探索する。
コード中の意味的摂動による実験により、CodeBERTは意味論的に正しいコードと正しくないコードとをしっかりと区別できることがわかった。
論文 参考訳(メタデータ) (2022-07-15T19:04:43Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。