論文の概要: GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding
- arxiv url: http://arxiv.org/abs/2311.09707v1
- Date: Thu, 16 Nov 2023 09:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:19:16.085869
- Title: GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding
- Title(参考訳): GenCodeSearchNet: プログラミング言語理解における一般化を評価するベンチマークテストスイート
- Authors: Andor Diera, Abdelhalim Dahou, Lukas Galke, Fabian Karl, Florian
Sihler, Ansgar Scherp
- Abstract要約: 我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
- 参考スコア(独自算出の注目度): 5.9535699822923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can serve as a valuable tool for software developers to
increase productivity. Large generative models can be used for code generation
and code completion, while smaller encoder-only models are capable of
performing code search tasks using natural language queries.These capabilities
are heavily influenced by the quality and diversity of the available training
data. Source code datasets used for training usually focus on the most popular
languages and testing is mostly conducted on the same distributions, often
overlooking low-resource programming languages. Motivated by the NLP
generalization taxonomy proposed by Hupkes et.\,al., we propose a new benchmark
dataset called GenCodeSearchNet (GeCS) which builds upon existing natural
language code search datasets to systemically evaluate the programming language
understanding generalization capabilities of language models. As part of the
full dataset, we introduce a new, manually curated subset StatCodeSearch that
focuses on R, a popular but so far underrepresented programming language that
is often used by researchers outside the field of computer science. For
evaluation and comparison, we collect several baseline results using fine-tuned
BERT-style models and GPT-style large language models in a zero-shot setting.
- Abstract(参考訳): 言語モデルは、生産性を高めるためのソフトウェア開発者にとって貴重なツールとなり得る。
大規模な生成モデルはコード生成やコード補完に利用でき、より小さなエンコーダのみのモデルでは自然言語クエリを使ってコード検索タスクを実行できるが、これらの機能は利用可能なトレーニングデータの品質と多様性に大きく影響されている。
トレーニングに使用されるソースコードデータセットは一般的に最も一般的な言語に焦点を合わせ、テストはたいてい同じディストリビューションで行われ、しばしば低リソースのプログラミング言語を見渡す。
Hupkesらによって提案されたNLP一般化分類に動機づけられた。
である。
既存の自然言語コード検索データセットを基盤として,言語モデルの一般化機能を体系的に評価する,gencodesearchnet(gecs)と呼ばれる新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、コンピュータサイエンスの分野以外の研究者がよく使っている、人気があるがあまり使われていないプログラミング言語rに焦点を当てた、手作業でキュレートされたサブセット statcodesearch を紹介します。
評価と比較のために,ゼロショット設定のbert型モデルとgpt型大規模言語モデルを用いて,いくつかのベースライン結果を収集した。
関連論文リスト
- CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Cross-Domain Deep Code Search with Meta Learning [14.618183588410194]
ドメイン固有のコード検索のための新しいアプローチであるCroCSを提案する。
CroCSは、プログラム表現モデルを一般的なプログラミング言語の大規模なコーパス上で事前訓練するトランスファーラーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2022-01-01T09:00:48Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。