論文の概要: Out of style: Misadventures with LLMs and code style transfer
- arxiv url: http://arxiv.org/abs/2406.10320v1
- Date: Fri, 14 Jun 2024 17:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.704060
- Title: Out of style: Misadventures with LLMs and code style transfer
- Title(参考訳): スタイル外:LLMとのミスとコードスタイルの転送
- Authors: Karl Munson, Chih-Kai Ting, Serenity Wade, Anish Savla, Julian Dolby, Kiran Kate, Kavitha Srinivas,
- Abstract要約: テキストスタイルの転送に言語モデルを使うことの成功に触発されて、コード言語モデルがコードスタイルの転送を行うことができるかどうかを検討する。
私たちは、forループからcomprehensionsのリストへの変換、コードの重複の排除、デコレータの追加など、5つのカテゴリにわたるコードスタイルの転送タスクのベンチマークスイートを設計しました。
次に、これらのテストを使用して、大規模な事前学習されたコード言語モデルや微調整されたモデルが、その転送が発生したかどうかを厳密なメトリクスに基づいて、スタイル転送を正しく実行し、コードがまだ機能テストに合格しているかを確認しました。
- 参考スコア(独自算出の注目度): 10.673982270603327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Like text, programs have styles, and certain programming styles are more desirable than others for program readability, maintainability, and performance. Code style transfer, however, is difficult to automate except for trivial style guidelines such as limits on line length. Inspired by the success of using language models for text style transfer, we investigate if code language models can perform code style transfer. Code style transfer, unlike text transfer, has rigorous requirements: the system needs to identify lines of code to change, change them correctly, and leave the rest of the program untouched. We designed CSB (Code Style Benchmark), a benchmark suite of code style transfer tasks across five categories including converting for-loops to list comprehensions, eliminating duplication in code, adding decorators to methods, etc. We then used these tests to see if large pre-trained code language models or fine-tuned models perform style transfer correctly, based on rigorous metrics to test that the transfer did occur, and the code still passes functional tests. Surprisingly, language models failed to perform all of the tasks, suggesting that they perform poorly on tasks that require code understanding. We will make available the large-scale corpora to help the community build better code models.
- Abstract(参考訳): テキストと同様に、プログラムにはスタイルがあり、プログラムの可読性、保守性、パフォーマンスにおいて、特定のプログラミングスタイルが他のものよりも望ましい。
しかし、行長の制限のような自明なスタイルガイドラインを除いて、コードスタイルの転送は自動化が難しい。
テキストスタイルの転送に言語モデルを使うことの成功に触発されて、コード言語モデルがコードスタイルの転送を行うことができるかどうかを検討する。
コードスタイルの転送は、テキスト転送とは異なり、厳格な要件がある。システムは変更するコードの行を特定し、それらを正しく変更し、残りのプログラムを無傷で残す必要がある。
CSB(Code Style Benchmark)は、forループをリスト化したり、コードの重複をなくしたり、メソッドにデコレータを追加するといった、5つのカテゴリにわたるコードスタイルの転送タスクのベンチマークスイートです。
次に、これらのテストを使用して、大規模な事前学習されたコード言語モデルや微調整されたモデルが、その転送が発生したかどうかを厳密なメトリクスに基づいて、スタイル転送を正しく実行し、コードがまだ機能テストに合格しているかを確認しました。
驚くべきことに、言語モデルはすべてのタスクを実行できなかった。
私たちは、コミュニティがより良いコードモデルを構築するのを助けるために、大規模なコーポラを利用可能にします。
関連論文リスト
- Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching [35.27850496374157]
コードスイッチング(Code-switching)は、複数の言語の単語をソース言語テキストに混ぜるデータ拡張スキームである。
そこで本研究では,PCS(Progressive Code-Switching)手法を提案する。
実験により,10言語にまたがる3つのゼロショット言語間移動タスクについて,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-06-19T09:06:24Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Exploring Code Style Transfer with Neural Networks [3.5137554842563863]
スタイル属性、特にPythonについて定義します。
スタイルの定義に加えて、トレーニング済みのコード言語モデルでコードスタイルに関する情報をキャプチャする機能についても検討する。
論文 参考訳(メタデータ) (2022-09-13T19:34:42Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Transductive Learning for Unsupervised Text Style Transfer [60.65782243927698]
教師なしスタイル転送モデルは、主に帰納的学習アプローチに基づいている。
本稿では,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:57:20Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Learning to Generate Multiple Style Transfer Outputs for an Input
Sentence [93.32432042381572]
入力テキストに対して異なるスタイル転送結果を生成する1対多のテキストスタイル転送フレームワークを提案する。
入力文の潜在表現を、言語スタイルのバリエーションをキャプチャするスタイルコードに分解する。
同じコンテンツコードと異なるスタイルコードを組み合わせることで、異なるスタイル転送出力を生成する。
論文 参考訳(メタデータ) (2020-02-16T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。