論文の概要: SCELMo: Source Code Embeddings from Language Models
- arxiv url: http://arxiv.org/abs/2004.13214v1
- Date: Tue, 28 Apr 2020 00:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:44:36.003917
- Title: SCELMo: Source Code Embeddings from Language Models
- Title(参考訳): SCELMo: 言語モデルからのソースコード埋め込み
- Authors: Rafael - Michael Karampatsis and Charles Sutton
- Abstract要約: 本稿では,言語モデルに基づくコンピュータ・プログラムにおける文脈表現の深層化について紹介する。
比較的小さなプログラムのコーパスで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。
- 参考スコア(独自算出の注目度): 33.673421734844474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous embeddings of tokens in computer programs have been used to
support a variety of software development tools, including readability, code
search, and program repair. Contextual embeddings are common in natural
language processing but have not been previously applied in software
engineering. We introduce a new set of deep contextualized word representations
for computer programs based on language models. We train a set of embeddings
using the ELMo (embeddings from language models) framework of Peters et al
(2018). We investigate whether these embeddings are effective when fine-tuned
for the downstream task of bug detection. We show that even a low-dimensional
embedding trained on a relatively small corpus of programs can improve a
state-of-the-art machine learning system for bug detection.
- Abstract(参考訳): コンピュータプログラムへのトークンの継続的な埋め込みは、可読性、コード検索、プログラムの修復など、様々なソフトウェア開発ツールをサポートするために使われてきた。
文脈埋め込みは自然言語処理では一般的であるが、これまでソフトウェア工学では適用されていなかった。
本稿では,言語モデルに基づくコンピュータプログラムのための,新しい深層文脈化単語表現のセットを提案する。
Peters et al (2018)のELMo(言語モデルからの埋め込み)フレームワークを使って埋め込みのセットをトレーニングする。
本研究は,バグ検出の下流タスクに微調整を行った場合,これらの埋め込みが有効かどうかを検討する。
比較的小さなプログラムで訓練された低次元埋め込みでさえ、バグ検出のための最先端の機械学習システムを改善することができることを示す。
関連論文リスト
- Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Enhancing Automated Program Repair through Fine-tuning and Prompt
Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。
いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。
PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文 参考訳(メタデータ) (2023-04-16T17:29:51Z) - Beyond the C: Retargetable Decompilation using Neural Machine
Translation [5.734661402742406]
我々は,新しい言語に容易に再ターゲティング可能なプロトタイプ・デコンパイラを開発した。
トークン化やトレーニングデータ選択などのパラメータが逆コンパイルの品質に与える影響について検討する。
トレーニングデータ、トレーニングされた逆コンパイルモデル、そして将来の言語に依存しない逆コンパイルの研究を促進するためのコードをリリースします。
論文 参考訳(メタデータ) (2022-12-17T20:45:59Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。