論文の概要: ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
- arxiv url: http://arxiv.org/abs/2407.03387v1
- Date: Wed, 3 Jul 2024 08:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:20:26.142446
- Title: ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
- Title(参考訳): ConCodeEval: ドメイン特化言語におけるコード制約に対する大規模言語モデルの評価
- Authors: Mehant Kammakomati, Sameer Pimparkhede, Srikanth Tamilselvam, Prince Kumar, Pushpak Bhattacharyya,
- Abstract要約: 大規模言語モデル(LLM)は、ゼロショットと少数ショットの設定で様々なテキスト生成タスクの自然言語制約を理解するのに苦労する。
5つの表現にまたがってコードとして表現されるハード制約とソフト制約を用いてLLMの可制御性を評価するための2つの新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 35.170835339618414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows Large Language Models (LLMs) struggle to understand natural language constraints for various text generation tasks in zero- and few-shot settings. While, in the code domain, there is wide usage of constraints in code format to maintain the integrity of code written in Domain-Specific Languages (DSLs), yet there has been no work evaluating LLMs with these constraints. We propose two novel tasks to assess the controllability of LLMs using hard and soft constraints represented as code across five representations. Our findings suggest that LLMs struggle to comprehend constraints in all representations irrespective of their portions in the pre-training data. While models are better at comprehending constraints in JSON, YAML, and natural language representations, they struggle with constraints represented in XML and the resource-rich language Python.
- Abstract(参考訳): 最近の研究によると、Large Language Models (LLM) は、ゼロショットと少数ショットの設定で様々なテキスト生成タスクの自然言語制約を理解するのに苦労している。
コードドメインでは、ドメイン特化言語(DSL)で記述されたコードの整合性を維持するためにコードフォーマットの制約が広く使われていますが、これらの制約でLLMを評価する作業は行われていません。
5つの表現にまたがってコードとして表現されるハード制約とソフト制約を用いてLLMの可制御性を評価するための2つの新しいタスクを提案する。
以上の結果から,LLMは事前学習データに係わる部分に関係なく,すべての表現における制約を理解するのに苦労していることが示唆された。
モデルはJSON、YAML、自然言語表現の制約を理解するのに優れていますが、XMLやリソース豊富なPythonで表現される制約に苦労しています。
関連論文リスト
- UniCoder: Scaling Code Large Language Model via Universal Code [40.248836046285014]
中間表現としてユニバーサルコード(UniCode)を導入する。
UniCoder-Instructは自然言語の質問、コードソリューション、および対応するユニバーサルコードから構成される。
中間普遍符号表現と最終符号解とのアライメントは、生成されたコードの品質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:32:48Z) - DocCGen: Document-based Controlled Code Generation [33.19206322891497]
DocCGenは、構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで、豊富な知識を活用できるフレームワークである。
実験の結果,DocCGenは6つの評価指標すべてで,言語モデルのサイズを常に改善していることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:34:57Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Multilingual Code Co-Evolution Using Large Language Models [45.083171710527985]
あるプログラミング言語から別のプログラミング言語へのコード変更の翻訳は、開発者の作業方法ではない。
Codeditorは、明示的にコード変更を編集としてモデル化し、プログラミング言語間で変更を関連付けることを学習する。
Codeditorは、一般的に使用されるすべての自動メトリクスに対して、最先端のアプローチを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-07-27T16:37:30Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。