論文の概要: CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of
Code and Text
- arxiv url: http://arxiv.org/abs/2403.01784v1
- Date: Mon, 4 Mar 2024 07:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:45:44.682250
- Title: CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of
Code and Text
- Title(参考訳): catcode: コードとテキストの混合に関するllmsの包括的な評価フレームワーク
- Authors: Zhenru Lin, Yiqun Yao, Yang Yuan
- Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、コードとテキストの混在を理解し、生成するのに熟練している。
LLMのコーディング能力を包括的に評価できるtextbfCatCode$という自動評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.872260531587692
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) such as ChatGPT are increasingly proficient in
understanding and generating a mixture of code and text. Evaluation based on
such $\textit{mixture}$ can lead to a more comprehensive understanding of the
models' abilities in solving coding problems. However, in this context, current
evaluation methods are either limited in task coverage or lack standardization.
To address this issue, we propose using category theory as a framework for
evaluation. Specifically, morphisms within a code category can represent code
debugging and transformation, functors between two categories represent code
translation, and functors between a code category and a natural language
category represent code generation, explanation, and reproduction. We present
an automatic evaluation framework called $\textbf{CatCode}$
($\textbf{Cat}$egory $\textbf{Code}$) that can comprehensively assess the
coding abilities of LLMs, including ChatGPT, Text-Davinci, and CodeGeeX.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、コードとテキストの混在を理解し、生成するのに熟練している。
そのような$\textit{mixture}$に基づく評価は、コーディング問題を解決するモデルの能力をより包括的に理解することになる。
しかし、この文脈では、現在の評価手法はタスクカバレッジに制限があるか、標準化が欠如している。
この問題に対処するために,評価の枠組みとしてカテゴリ理論を用いることを提案する。
具体的には、コードカテゴリ内の射はコードのデバッグと変換を表し、2つのカテゴリ間の関手はコード翻訳を表し、コードカテゴリと自然言語カテゴリ間の関手はコード生成、説明、再生を表す。
我々は、ChatGPT、Text-Davinci、CodeGeeXを含むLCMのコーディング能力を総合的に評価できる、$\textbf{CatCode}$ ($\textbf{Cat}$egory $\textbf{Code}$)と呼ばれる自動評価フレームワークを提案する。
関連論文リスト
- CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - CodeQueries: A Dataset of Semantic Queries over Code [7.0864879068510005]
我々はPythonコードにセマンティッククエリーのラベル付きデータセットであるCodeQueriesをコントリビュートする。
既存のデータセットと比較して、CodeQueriesでは、クエリはコードセマンティクスであり、コンテキストはファイルレベルであり、答えはコードスパンである。
CodeQueriesのサブセット上で,ゼロショットと少数ショット設定で大規模言語モデル(GPT3.5-Turbo)を評価する。
論文 参考訳(メタデータ) (2022-09-17T17:09:30Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - TAG : Type Auxiliary Guiding for Code Comment Generation [19.823407401313222]
コードコメント生成タスクのためのType Auxiliary Guiding-Decoderフレームワークを提案する。
我々のフレームワークは、ソースコードの適応的な要約を可能にするType-associated encoderとType-restricted Decoderを備えている。
論文 参考訳(メタデータ) (2020-05-06T14:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。