論文の概要: DistiLRR: Transferring Code Repair for Low-Resource Programming Languages
- arxiv url: http://arxiv.org/abs/2406.14867v1
- Date: Fri, 21 Jun 2024 05:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:42:51.119791
- Title: DistiLRR: Transferring Code Repair for Low-Resource Programming Languages
- Title(参考訳): DistiLRR:低リソースプログラミング言語のコード修復
- Authors: Kyle Wong, Alfonso Amayuelas, Liangming Pan, William Yang Wang,
- Abstract要約: Distilling Low-Resource repairs (DistiLRR) は、教師モデルから生徒モデルへの推論とコード生成能力を移行するアプローチである。
以上の結果から, DistiLRR は低リソース言語ではベースラインを一貫して上回るが, 高リソース言語では同様の性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 57.62712191540067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance on code generation tasks. A recent application of LLMs for code generation is iterative code repair, where a model fixes an incorrect program by rationalizing about errors and generating a new program. However, code repair is primarily studied on high-resource languages like Python, and the framework's efficacy is under-explored on low-resource languages. To apply code repair for low-resource languages, we propose Distilling Low-Resource Repairs (DistiLRR), an approach that transfers the reasoning and code generation ability from a teacher model to a student model. Our results show that DistiLRR consistently outperforms baselines on low-resource languages, but has similar performance on high-resource languages. To investigate this behavior, we perform a further analysis and find that the correlation between rationale quality and code correctness is weaker than previously perceived. We hypothesize this weakness is magnified in low-resource settings where base models lack deep knowledge of a programming language, leading to wavering benefits of code repair between high-resource and low-resource languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。
コード生成のための最近のLLMの応用は反復的なコード修復であり、モデルが誤りを合理化し、新しいプログラムを生成することによって、間違ったプログラムを修正する。
しかし、コード修復は主にPythonのような高リソース言語で研究されており、フレームワークの有効性は低リソース言語で過小評価されている。
低リソース言語にコード修復を適用するために,教師モデルから学生モデルへの推論とコード生成能力の移行を行うDistilling Low-Resource repairs (DistiLRR)を提案する。
以上の結果から, DistiLRR は低リソース言語ではベースラインを一貫して上回るが, 高リソース言語では同様の性能を示すことがわかった。
この振る舞いを調べるために、我々はさらに分析を行い、合理的な品質とコード正しさの相関が以前認識されていたよりも弱いことを発見した。
この弱点は、ベースモデルがプログラミング言語の深い知識を欠いている低リソース環境では、高リソースと低リソースの言語間のコード修復の恩恵が波及する、という仮説を立てています。
関連論文リスト
- Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Repair Is Nearly Generation: Multilingual Program Repair with LLMs [9.610685299268825]
Codexのようなコード(LLMC)でトレーニングされた大規模言語モデルを利用した多言語修復エンジンであるRingを紹介する。
プログラマが手動でバグを修正する方法からインスピレーションを得て、修復をローカライズ、トランスフォーメーション、候補ランキングとして概念化するプロンプトベースの戦略が、最小限の努力で複数のドメインでのプログラムの修復に成功できることを示す。
論文 参考訳(メタデータ) (2022-08-24T16:25:58Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。