論文の概要: Using Large-Scale Anomaly Detection on Code to Improve Kotlin Compiler
- arxiv url: http://arxiv.org/abs/2004.01618v1
- Date: Fri, 3 Apr 2020 15:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 05:11:13.920061
- Title: Using Large-Scale Anomaly Detection on Code to Improve Kotlin Compiler
- Title(参考訳): コードの大規模な異常検出を使用してKotlinコンパイラを改善する
- Authors: Timofey Bryksin, Victor Petukhov, Ilya Alexin, Stanislav Prikhodko,
Alexey Shpilman, Vladimir Kovalenko, Nikita Povarov
- Abstract要約: ソースコードとバイトコードに異常検出を適用し,プログラム言語の開発を容易にする。
我々は、異常を特定のプログラミング言語で書かれた典型的なコードとは異なるコードフラグメントとして定義する。
- 参考スコア(独自算出の注目度): 4.179323589439977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we apply anomaly detection to source code and bytecode to
facilitate the development of a programming language and its compiler. We
define anomaly as a code fragment that is different from typical code written
in a particular programming language. Identifying such code fragments is
beneficial to both language developers and end users, since anomalies may
indicate potential issues with the compiler or with runtime performance.
Moreover, anomalies could correspond to problems in language design. For this
study, we choose Kotlin as the target programming language. We outline and
discuss approaches to obtaining vector representations of source code and
bytecode and to the detection of anomalies across vectorized code snippets. The
paper presents a method that aims to detect two types of anomalies: syntax tree
anomalies and so-called compiler-induced anomalies that arise only in the
compiled bytecode. We describe several experiments that employ different
combinations of vectorization and anomaly detection techniques and discuss
types of detected anomalies and their usefulness for language developers. We
demonstrate that the extracted anomalies and the underlying extraction
technique provide additional value for language development.
- Abstract(参考訳): 本研究では,ソースコードとバイトコードに異常検出を適用し,プログラミング言語とそのコンパイラの開発を容易にする。
我々は、異常を特定のプログラミング言語で書かれた典型的なコードとは異なるコードフラグメントとして定義する。
このようなコードフラグメントを特定することは、言語開発者とエンドユーザの両方にとって有益である。
さらに、異常は言語設計の問題に対応できる。
この研究は、ターゲットプログラミング言語としてkotlinを選択します。
本稿では,ソースコードとバイトコードのベクトル表現と,ベクトル化されたコードスニペット間の異常検出へのアプローチの概要と議論を行う。
本稿では,構文木異常と,コンパイルされたバイトコードにのみ発生するコンパイラ誘発異常という,2種類の異常を検出する手法を提案する。
本稿では,ベクトル化と異常検出の異なる組み合わせを用いたいくつかの実験について述べるとともに,検出された異常の種類と言語開発者の有用性について考察する。
抽出された異常と基礎となる抽出技術が言語開発に付加価値をもたらすことを示す。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Evolutionary Generative Fuzzing for Differential Testing of the Kotlin
Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。
そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。
ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文 参考訳(メタデータ) (2024-01-12T16:01:12Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and
Human Programmers [15.314580751870777]
機械と人為的なコードを特徴付ける特定のパターンについて検討する。
本研究では,DeuterCodeGPTと呼ばれる新しい機械生成コード検出手法を提案する。
提案手法は, 機械生成コードの検出における最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Cross-Language Binary-Source Code Matching with Intermediate
Representations [27.843666274502198]
本稿では,言語間のバイナリソースコードマッチングの問題を定式化し,新しい問題のための新しいデータセットを開発する。
本稿では,バイナリとソースコードの中間表現を学習し,トランスフォーマーに基づくニューラルネットワークであるXLIRを提案する。
中間表現を持つXLIRは,2つのタスクにおいて,他の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-01-19T05:17:02Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。