Fugu-MT 論文翻訳(概要): GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding

論文の概要: GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding

arxiv url: http://arxiv.org/abs/2311.09707v1
Date: Thu, 16 Nov 2023 09:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:19:16.085869
Title: GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding
Title（参考訳）: GenCodeSearchNet: プログラミング言語理解における一般化を評価するベンチマークテストスイート
Authors: Andor Diera, Abdelhalim Dahou, Lukas Galke, Fabian Karl, Florian Sihler, Ansgar Scherp
Abstract要約: 我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
参考スコア（独自算出の注目度）: 5.9535699822923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models can serve as a valuable tool for software developers to increase productivity. Large generative models can be used for code generation and code completion, while smaller encoder-only models are capable of performing code search tasks using natural language queries.These capabilities are heavily influenced by the quality and diversity of the available training data. Source code datasets used for training usually focus on the most popular languages and testing is mostly conducted on the same distributions, often overlooking low-resource programming languages. Motivated by the NLP generalization taxonomy proposed by Hupkes et.\,al., we propose a new benchmark dataset called GenCodeSearchNet (GeCS) which builds upon existing natural language code search datasets to systemically evaluate the programming language understanding generalization capabilities of language models. As part of the full dataset, we introduce a new, manually curated subset StatCodeSearch that focuses on R, a popular but so far underrepresented programming language that is often used by researchers outside the field of computer science. For evaluation and comparison, we collect several baseline results using fine-tuned BERT-style models and GPT-style large language models in a zero-shot setting.
Abstract（参考訳）: 言語モデルは、生産性を高めるためのソフトウェア開発者にとって貴重なツールとなり得る。大規模な生成モデルはコード生成やコード補完に利用でき、より小さなエンコーダのみのモデルでは自然言語クエリを使ってコード検索タスクを実行できるが、これらの機能は利用可能なトレーニングデータの品質と多様性に大きく影響されている。トレーニングに使用されるソースコードデータセットは一般的に最も一般的な言語に焦点を合わせ、テストはたいてい同じディストリビューションで行われ、しばしば低リソースのプログラミング言語を見渡す。 Hupkesらによって提案されたNLP一般化分類に動機づけられた。である。既存の自然言語コード検索データセットを基盤として,言語モデルの一般化機能を体系的に評価する,gencodesearchnet(gecs)と呼ばれる新しいベンチマークデータセットを提案する。完全なデータセットの一部として、コンピュータサイエンスの分野以外の研究者がよく使っている、人気があるがあまり使われていないプログラミング言語rに焦点を当てた、手作業でキュレートされたサブセット statcodesearch を紹介します。評価と比較のために,ゼロショット設定のbert型モデルとgpt型大規模言語モデルを用いて,いくつかのベースライン結果を収集した。

関連論文リスト

A Multi-Language Perspective on the Robustness of LLM Code Generation [2.580765958706854]
我々は、いくつかの顕著なコード生成モデルの堅牢性を評価するために、包括的な比較分析を行う。プロンプトの4つの重要な領域、DocString、関数名、構文、フォーマットに摂動を導入する。本研究は,様々なシナリオにおけるコード生成モデルの性能に光を当て,実験結果を示す。
論文参考訳（メタデータ） (2025-04-27T05:00:21Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Constructing Multilingual Code Search Dataset Using Neural Machine Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文参考訳（メタデータ） (2023-06-27T16:42:36Z)
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (2023-05-19T18:00:03Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Cross-Domain Deep Code Search with Meta Learning [14.618183588410194]
ドメイン固有のコード検索のための新しいアプローチであるCroCSを提案する。 CroCSは、プログラム表現モデルを一般的なプログラミング言語の大規模なコーパス上で事前訓練するトランスファーラーニングフレームワークを採用している。
論文参考訳（メタデータ） (2022-01-01T09:00:48Z)
Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文参考訳（メタデータ） (2020-10-24T14:16:50Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Automated Source Code Generation and Auto-completion Using Deep Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文参考訳（メタデータ） (2020-09-16T15:17:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。