Fugu-MT 論文翻訳(概要): CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text

論文の概要: CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text

arxiv url: http://arxiv.org/abs/2403.01784v1
Date: Mon, 4 Mar 2024 07:26:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 19:45:44.682250
Title: CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text
Title（参考訳）: catcode: コードとテキストの混合に関するllmsの包括的な評価フレームワーク
Authors: Zhenru Lin, Yiqun Yao, Yang Yuan
Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、コードとテキストの混在を理解し、生成するのに熟練している。 LLMのコーディング能力を包括的に評価できるtextbfCatCode$という自動評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 11.872260531587692
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) such as ChatGPT are increasingly proficient in understanding and generating a mixture of code and text. Evaluation based on such $\textit{mixture}$ can lead to a more comprehensive understanding of the models' abilities in solving coding problems. However, in this context, current evaluation methods are either limited in task coverage or lack standardization. To address this issue, we propose using category theory as a framework for evaluation. Specifically, morphisms within a code category can represent code debugging and transformation, functors between two categories represent code translation, and functors between a code category and a natural language category represent code generation, explanation, and reproduction. We present an automatic evaluation framework called $\textbf{CatCode}$ ($\textbf{Cat}$egory $\textbf{Code}$) that can comprehensively assess the coding abilities of LLMs, including ChatGPT, Text-Davinci, and CodeGeeX.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、コードとテキストの混在を理解し、生成するのに熟練している。そのような$\textit{mixture}$に基づく評価は、コーディング問題を解決するモデルの能力をより包括的に理解することになる。しかし、この文脈では、現在の評価手法はタスクカバレッジに制限があるか、標準化が欠如している。この問題に対処するために,評価の枠組みとしてカテゴリ理論を用いることを提案する。具体的には、コードカテゴリ内の射はコードのデバッグと変換を表し、2つのカテゴリ間の関手はコード翻訳を表し、コードカテゴリと自然言語カテゴリ間の関手はコード生成、説明、再生を表す。我々は、ChatGPT、Text-Davinci、CodeGeeXを含むLCMのコーディング能力を総合的に評価できる、$\textbf{CatCode}$ ($\textbf{Cat}$egory $\textbf{Code}$)と呼ばれる自動評価フレームワークを提案する。

関連論文リスト

CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models [10.108114365564926]
最先端の大規模言語モデル(LLM)は、印象的なコード生成機能を示しているが、実際のソフトウェアエンジニアリングタスクに苦労している。コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。
論文参考訳（メタデータ） (2025-03-20T14:07:31Z)
CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt [3.2047924365529026]
本稿では,テキスト分類問題をコード補完タスクに変換するCode Completion Prompt (CoCoP)法を提案する。 CoCoPは、LLMのコード補完機能を利用することで、多様なデータセット間でのテキスト分類性能を大幅に改善する。
論文参考訳（メタデータ） (2024-11-13T19:12:02Z)
What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
SeqCoBenchは、コード-LLMがコード関数同値をキャプチャする方法を評価するベンチマークである。我々は,SeqCoBenchにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを,最先端(Code-)LLMで評価する。
論文参考訳（メタデータ） (2024-08-20T11:19:06Z)
Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文参考訳（メタデータ） (2024-06-29T14:56:11Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Enhancing Repository-Level Code Generation with Integrated Contextual Information [8.58692613099365]
CatCoderは静的型付けプログラミング言語用に設計された新しいコード生成フレームワークである。 CatCoderは、関連するコードと型コンテキストを統合することで、リポジトリレベルのコード生成を強化する。 CatCoderは、pass@kスコアの点で、RepoCoderベースラインを最大17.35%上回っている。
論文参考訳（メタデータ） (2024-06-05T13:56:42Z)
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文参考訳（メタデータ） (2024-04-30T23:56:38Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文参考訳（メタデータ） (2022-01-26T10:54:30Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。