論文の概要: ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
- arxiv url: http://arxiv.org/abs/2407.03387v2
- Date: Fri, 30 Aug 2024 09:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:48:46.477157
- Title: ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
- Title(参考訳): ConCodeEval: ドメイン特化言語におけるコード制約に対する大規模言語モデルの評価
- Authors: Mehant Kammakomati, Sameer Pimparkhede, Srikanth Tamilselvam, Prince Kumar, Pushpak Bhattacharyya,
- Abstract要約: 大規模言語モデル(LLM)は、様々なテキスト生成タスクに対する自然言語の制約を理解するのに苦労する。
通常のコードタスクに対して優れたパフォーマンスを発揮するコード言語は、同じ言語がきめ細かい制約を表現している場合、うまく機能しない。
ConCodeEvalは、5つの表現にまたがるコード制約のための2つの新しいタスクを持つ、第一級のベンチマークです。
- 参考スコア(独自算出の注目度): 35.170835339618414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows Large Language Models (LLMs) struggle to understand natural language constraints for various text generation tasks in zero- and few-shot settings. While, in the code domain, there is wide usage of constraints in code format to maintain the integrity of code written in Domain-Specific Languages (DSLs) like JSON and YAML which are widely used for system-level programming tasks in enterprises. Given that LLMs are increasingly used for system-level code tasks, evaluating if they can comprehend these code constraints is crucial. However, no work has been done to evaluate their controllability over code constraints. Hence, we introduce ConCodeEval, a first-of-its-kind benchmark having two novel tasks for code constraints across five representations. Our findings suggest that language models struggle with code constraints. Code languages that perform excellently for normal code tasks do not perform well when the same languages represent fine-grained constraints.
- Abstract(参考訳): 最近の研究によると、Large Language Models (LLM) は、ゼロショットと少数ショットの設定で様々なテキスト生成タスクの自然言語制約を理解するのに苦労している。
一方、コードドメインでは、企業内のシステムレベルのプログラミングタスクに広く使用されるJSONやYAMLのようなドメイン特化言語(DSL)で記述されたコードの整合性を維持するために、コードフォーマットの制約が広く使われています。
LLMがますますシステムレベルのコードタスクに使われていることを考えると、これらの制約を理解することが不可欠である。
しかしながら、コード制約に対する制御性を評価する作業は行われていない。
そのために,5つの表現にまたがる2つのコード制約に対する新しいタスクを持つ,第一級ベンチマークであるConCodeEvalを紹介した。
この結果から,言語モデルは制約に悩まされていることが示唆された。
通常のコードタスクに対して優れたパフォーマンスを発揮するコード言語は、同じ言語がきめ細かい制約を表現している場合、うまく機能しない。
関連論文リスト
- UniCoder: Scaling Code Large Language Model via Universal Code [40.248836046285014]
中間表現としてユニバーサルコード(UniCode)を導入する。
UniCoder-Instructは自然言語の質問、コードソリューション、および対応するユニバーサルコードから構成される。
中間普遍符号表現と最終符号解とのアライメントは、生成されたコードの品質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:32:48Z) - DocCGen: Document-based Controlled Code Generation [33.19206322891497]
DocCGenは、構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで、豊富な知識を活用できるフレームワークである。
実験の結果,DocCGenは6つの評価指標すべてで,言語モデルのサイズを常に改善していることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:34:57Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Multilingual Code Co-Evolution Using Large Language Models [45.083171710527985]
あるプログラミング言語から別のプログラミング言語へのコード変更の翻訳は、開発者の作業方法ではない。
Codeditorは、明示的にコード変更を編集としてモデル化し、プログラミング言語間で変更を関連付けることを学習する。
Codeditorは、一般的に使用されるすべての自動メトリクスに対して、最先端のアプローチを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-07-27T16:37:30Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。