論文の概要: Using Large-Scale Anomaly Detection on Code to Improve Kotlin Compiler
- arxiv url: http://arxiv.org/abs/2004.01618v1
- Date: Fri, 3 Apr 2020 15:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 05:11:13.920061
- Title: Using Large-Scale Anomaly Detection on Code to Improve Kotlin Compiler
- Title(参考訳): コードの大規模な異常検出を使用してKotlinコンパイラを改善する
- Authors: Timofey Bryksin, Victor Petukhov, Ilya Alexin, Stanislav Prikhodko,
Alexey Shpilman, Vladimir Kovalenko, Nikita Povarov
- Abstract要約: ソースコードとバイトコードに異常検出を適用し,プログラム言語の開発を容易にする。
我々は、異常を特定のプログラミング言語で書かれた典型的なコードとは異なるコードフラグメントとして定義する。
- 参考スコア(独自算出の注目度): 4.179323589439977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we apply anomaly detection to source code and bytecode to
facilitate the development of a programming language and its compiler. We
define anomaly as a code fragment that is different from typical code written
in a particular programming language. Identifying such code fragments is
beneficial to both language developers and end users, since anomalies may
indicate potential issues with the compiler or with runtime performance.
Moreover, anomalies could correspond to problems in language design. For this
study, we choose Kotlin as the target programming language. We outline and
discuss approaches to obtaining vector representations of source code and
bytecode and to the detection of anomalies across vectorized code snippets. The
paper presents a method that aims to detect two types of anomalies: syntax tree
anomalies and so-called compiler-induced anomalies that arise only in the
compiled bytecode. We describe several experiments that employ different
combinations of vectorization and anomaly detection techniques and discuss
types of detected anomalies and their usefulness for language developers. We
demonstrate that the extracted anomalies and the underlying extraction
technique provide additional value for language development.
- Abstract(参考訳): 本研究では,ソースコードとバイトコードに異常検出を適用し,プログラミング言語とそのコンパイラの開発を容易にする。
我々は、異常を特定のプログラミング言語で書かれた典型的なコードとは異なるコードフラグメントとして定義する。
このようなコードフラグメントを特定することは、言語開発者とエンドユーザの両方にとって有益である。
さらに、異常は言語設計の問題に対応できる。
この研究は、ターゲットプログラミング言語としてkotlinを選択します。
本稿では,ソースコードとバイトコードのベクトル表現と,ベクトル化されたコードスニペット間の異常検出へのアプローチの概要と議論を行う。
本稿では,構文木異常と,コンパイルされたバイトコードにのみ発生するコンパイラ誘発異常という,2種類の異常を検出する手法を提案する。
本稿では,ベクトル化と異常検出の異なる組み合わせを用いたいくつかの実験について述べるとともに,検出された異常の種類と言語開発者の有用性について考察する。
抽出された異常と基礎となる抽出技術が言語開発に付加価値をもたらすことを示す。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - Code Linting using Language Models [0.7519872646378836]
コードリンタは高品質なソフトウェアシステムの開発において重要な役割を担います。
それらの利点にもかかわらず、コードリンタは言語固有のもので、特定のタイプの問題に焦点を合わせており、偽陽性になりがちである。
本稿では,大規模言語モデルを用いて,より汎用的なコードlinterを開発できるかどうかについて検討する。
論文 参考訳(メタデータ) (2024-06-27T19:59:49Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Evolutionary Generative Fuzzing for Differential Testing of the Kotlin
Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。
そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。
ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文 参考訳(メタデータ) (2024-01-12T16:01:12Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。