Fugu-MT 論文翻訳(概要): A Critical Study of What Code-LLMs (Do Not) Learn

論文の概要: A Critical Study of What Code-LLMs (Do Not) Learn

arxiv url: http://arxiv.org/abs/2406.11930v1
Date: Mon, 17 Jun 2024 13:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 00:36:26.349012
Title: A Critical Study of What Code-LLMs (Do Not) Learn
Title（参考訳）: Code-LLMsが学ぶべきでないことの批判的研究
Authors: Abhinav Anand, Shweta Verma, Krishna Narasimhan, Mira Mezini,
Abstract要約: 我々は、注意マップとコード-LLMの隠れ表現のきめ細かい分析を行う。コード-LLMは入力トークンの特定のサブセット間の関係を符号化するのみである。また、微調整されたモデルでは、事前訓練されたモデルと比較して、これらの関係をコード化していないことも判明した。
参考スコア（独自算出の注目度）: 1.9112895898795055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models trained on code corpora (code-LLMs) have demonstrated impressive performance in various coding assistance tasks. However, despite their increased size and training dataset, code-LLMs still have limitations such as suggesting codes with syntactic errors, variable misuse etc. Some studies argue that code-LLMs perform well on coding tasks because they use self-attention and hidden representations to encode relations among input tokens. However, previous works have not studied what code properties are not encoded by code-LLMs. In this paper, we conduct a fine-grained analysis of attention maps and hidden representations of code-LLMs. Our study indicates that code-LLMs only encode relations among specific subsets of input tokens. Specifically, by categorizing input tokens into syntactic tokens and identifiers, we found that models encode relations among syntactic tokens and among identifiers, but they fail to encode relations between syntactic tokens and identifiers. We also found that fine-tuned models encode these relations poorly compared to their pre-trained counterparts. Additionally, larger models with billions of parameters encode significantly less information about code than models with only a few hundred million parameters.
Abstract（参考訳）: コードコーパス(コード-LLM)で訓練された大規模言語モデルは、様々なコーディング支援タスクにおいて素晴らしいパフォーマンスを示している。しかし、サイズとトレーニングデータセットが増大しているにも関わらず、コード-LLMには構文エラーや変数の誤用といった制限がある。コードLLMは、自己注意と隠された表現を用いて入力トークン間の関係を符号化するため、コーディングタスクでうまく機能すると主張する研究もある。しかし、以前の研究では、コード-LLMがコードプロパティをエンコードしていないかは研究されていない。本稿では,注意マップとコード-LLMの隠れ表現の微粒化解析を行う。コード-LLMは入力トークンの特定のサブセット間の関係を符号化するのみである。具体的には、入力トークンを統語トークンと識別子に分類することにより、モデルが統語トークンと識別子間の関係を符号化するが、それらが統語トークンと識別子間の関係を符号化しないことがわかった。また、微調整されたモデルでは、事前訓練されたモデルと比較して、これらの関係をコード化していないことも判明した。さらに、数十億のパラメータを持つ大規模なモデルは、数億のパラメータを持つモデルよりもコードに関する情報をかなり少ないコードでエンコードします。

関連論文リスト

On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。 1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文参考訳（メタデータ） (2025-07-19T00:48:20Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
大規模言語モデル(LLM)はコードの形式的な側面をモデル化しないため、コンパイル不可能な出力を生成する。本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。提案手法は,コンパイルエラーを半分以上削減し,コード合成,翻訳,修復作業における機能的正しさを向上する。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
SeqCoBenchは、コード-LLMがコード関数同値をキャプチャする方法を評価するベンチマークである。我々は,SeqCoBenchにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを,最先端(Code-)LLMで評価する。
論文参考訳（メタデータ） (2024-08-20T11:19:06Z)
Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文参考訳（メタデータ） (2024-02-19T18:06:02Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities [34.27541293716398]
コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。コード構文とセマンティクスを習得する際の様々なコードモデルの長所と短所を強調した。
論文参考訳（メタデータ） (2022-12-20T06:15:17Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition [0.7894331610810762]
LANguage Model と Named Entity Recognition (LAMNER) を提案する。 LAMNERは、コード構造を効果的に符号化し、コードトークンの構造的特性をキャプチャできるコードコメント生成装置である。 LAMNERや他のベースラインから生成されたコメントを、一般的な4つのメトリクスを持つ人気のあるJavaデータセットで評価する。
論文参考訳（メタデータ） (2022-04-05T20:53:06Z)
UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文参考訳（メタデータ） (2022-03-08T04:48:07Z)
Contrastive Learning for Source Code with Structural and Functional Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文参考訳（メタデータ） (2021-10-08T02:56:43Z)
CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文参考訳（メタデータ） (2021-08-10T10:08:21Z)
GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文参考訳（メタデータ） (2020-09-17T15:25:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。