Fugu-MT 論文翻訳(概要): Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code

論文の概要: Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code

arxiv url: http://arxiv.org/abs/2311.07989v4
Date: Mon, 22 Jan 2024 12:27:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 20:02:19.786881
Title: Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code
Title（参考訳）: NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査
Authors: Ziyin Zhang and Chaoyu Chen and Bingchang Liu and Cong Liao and Zi Gong and Hang Yu and Jianguo Li and Rui Wang
Abstract要約: 本稿では,言語モデルを用いたコード処理の最近の進歩を体系的にレビューする。私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。 AST、CFG、ユニットテストなどのコード固有の機能や、トレーニングコード言語モデルのアプリケーションについて議論し、この領域における重要な課題と将来的な方向性を特定します。
参考スコア（独自算出の注目度）: 26.010021614297294
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, 170+ datasets, and 700+ related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM.
Abstract（参考訳）: 本稿では,50以上のモデル,30以上の評価タスク,170以上のデータセット,700以上の関連作業を含む,言語モデルによるコード処理の最近の進歩を体系的にレビューする。私たちは、コード処理モデルをgptファミリに代表される一般的な言語モデルと、特にコードで事前学習される特殊なモデルに分解します。これらのモデルとの関係と相違について考察し,nlpが実施したのと全く同じ方法で,統計モデルやrnnから事前学習されたトランスフォーマーやllmへのコードモデリングの歴史的変遷を強調する。また、ast、cfg、ユニットテストといったコード固有の機能や、コード言語モデルをトレーニングするアプリケーションについても議論し、このドメインにおける重要な課題と将来的な方向性を特定します。私たちは調査をオープンにし、githubのhttps://github.com/codefuse-ai/awesome-code-llmで更新しています。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
On The Landscape of Spoken Language Models: A Comprehensive Survey [144.11278973534203]
音声言語モデル(SLM)は、普遍的な音声処理システムとして機能する。この領域での作業は非常に多様であり、様々な用語と評価設定がある。
論文参考訳（メタデータ） (2025-04-11T13:40:53Z)
Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
In-Context Code-Text Learning for Bimodal Software Engineering [26.0027882745058]
バイモーダルなソフトウェア分析は、大きな言語モデルの出現とともに、当初は手の届くところにあるように見えた。コードテキストのバイモーダル性に対するコンテキスト内学習は有望な道であると仮定する。我々は、23のソフトウェアエンジニアリングタスクを含む多様なデータセットを考察し、コンテキスト内学習フォーマットで変換する。
論文参考訳（メタデータ） (2024-10-08T19:42:00Z)
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。 CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文参考訳（メタデータ） (2024-04-03T02:21:46Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Generative AI for Software Metadata: Overview of the Information Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文参考訳（メタデータ） (2023-10-27T14:13:23Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Enhancing Automated Program Repair through Fine-tuning and Prompt Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。 PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文参考訳（メタデータ） (2023-04-16T17:29:51Z)
An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文参考訳（メタデータ） (2023-03-10T07:55:00Z)
Summarize and Generate to Back-translate: Unsupervised Translation of Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。コード要約と生成による逆翻訳を提案する。提案手法は最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2022-05-23T08:20:41Z)
A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (2022-03-25T06:55:15Z)
Automated Source Code Generation and Auto-completion Using Deep Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文参考訳（メタデータ） (2020-09-16T15:17:04Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)
CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文参考訳（メタデータ） (2020-02-19T13:09:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。