論文の概要: Automatically Testing Functional Properties of Code Translation Models
- arxiv url: http://arxiv.org/abs/2309.12813v1
- Date: Thu, 7 Sep 2023 11:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:33:21.583378
- Title: Automatically Testing Functional Properties of Code Translation Models
- Title(参考訳): コード翻訳モデルの機能的特性の自動テスト
- Authors: Hasan Ferit Eniser, Valentin W\"ustholz, Maria Christakis
- Abstract要約: コード翻訳モデルの自動化、機能、プロパティベースのテストのための最初のアプローチを考案する。
トランスパイルされたコードに関するユーザが提供する私たちの一般的な仕様は、さまざまなプロパティをキャプチャします。
また,コード翻訳モデルに対する最初のプロパティ誘導探索手法を開発した。
- 参考スコア(独自算出の注目度): 3.5757761767474867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are becoming increasingly practical for translating
code across programming languages, a process known as $transpiling$. Even
though automated transpilation significantly boosts developer productivity, a
key concern is whether the generated code is correct. Existing work initially
used manually crafted test suites to test the translations of a small corpus of
programs; these test suites were later automated. In contrast, we devise the
first approach for automated, functional, property-based testing of code
translation models. Our general, user-provided specifications about the
transpiled code capture a range of properties, from purely syntactic to purely
semantic ones. As shown by our experiments, this approach is very effective in
detecting property violations in popular code translation models, and
therefore, in evaluating model quality with respect to given properties. We
also go a step further and explore the usage scenario where a user simply aims
to obtain a correct translation of some code with respect to certain properties
without necessarily being concerned about the overall quality of the model. To
this purpose, we develop the first property-guided search procedure for code
translation models, where a model is repeatedly queried with slightly different
parameters to produce alternative and potentially more correct translations.
Our results show that this search procedure helps to obtain significantly
better code translations.
- Abstract(参考訳): 大規模な言語モデルは、$transpiling$として知られるプログラム言語間のコード翻訳において、ますます実用的になりつつある。
自動トランスパイルは開発者の生産性を大幅に向上させるが、重要な懸念は生成されたコードが正しいかどうかである。
既存の作業は、最初は手作業によるテストスイートを使用して小さなプログラムの翻訳をテストしたが、これらのテストスイートは後に自動化された。
対照的に、コード翻訳モデルの自動化、機能、プロパティベースのテストのための最初のアプローチを考案する。
トランスパイルされたコードに関する一般的なユーザ提供の仕様は、純粋に構文から純粋に意味的なものまで、さまざまなプロパティをキャプチャします。
実験により示すように、この手法は、一般的なコード翻訳モデルにおけるプロパティ違反の検出に非常に有効であり、従って、与えられた特性に対するモデル品質の評価にも有効である。
さらに私たちは、ユーザがモデル全体の品質を気にせずに、特定のプロパティに関して、あるコードの正しい翻訳を得ることを単に目的とする、使用シナリオについても検討しています。
この目的のために, コード翻訳モデルに対して, モデルにわずかに異なるパラメータを繰り返し問い合わせて, 代替的かつより正確な翻訳を生成する, 特性誘導型探索法を開発した。
以上の結果から,この検索手法はコード翻訳の精度が著しく向上することが示唆された。
関連論文リスト
- A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文 参考訳(メタデータ) (2024-10-30T08:53:33Z) - CAT-LM: Training Language Models on Aligned Code And Tests [19.526181671936243]
テストはソフトウェア開発プロセスにおいて不可欠な部分だ。しかし、テストを書くのに時間がかかり、しばしば無視される。
我々は270億のパラメータを持つGPTスタイルの言語モデルであるAligned Code And Tests Language Model (CAT-LM)を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:52:22Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。