Fugu-MT 論文翻訳(概要): Code Representation Learning At Scale

論文の概要: Code Representation Learning At Scale

arxiv url: http://arxiv.org/abs/2402.01935v1
Date: Fri, 2 Feb 2024 22:19:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 23:13:14.846707
Title: Code Representation Learning At Scale
Title（参考訳）: 大規模なコード表現学習
Authors: Dejiao Zhang, Wasi Ahmad, Ming Tan, Hantian Ding, Ramesh Nallapati, Dan Roth, Xiaofei Ma, Bing Xiang
Abstract要約: 2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
参考スコア（独自算出の注目度）: 75.04686476303436
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent studies have shown that code language models at scale demonstrate significant performance gains on downstream tasks, i.e., code generation. However, most of the existing works on code representation learning train models at a hundred million parameter scale using very limited pretraining corpora. In this work, we fuel code representation learning with a vast amount of code data via a two-stage pretraining scheme. We first train the encoders via a mix that leverages both randomness in masking language modeling and the structure aspect of programming language. We then enhance the representations via contrastive learning with hard negative and hard positive constructed in an unsupervised manner. We establish an off-the-shelf encoder model that persistently outperforms the existing models on a wide variety of downstream tasks by large margins. To comprehend the factors contributing to successful code representation learning, we conduct detailed ablations and share our findings on (i) a customized and effective token-level denoising scheme for source code; (ii) the importance of hard negatives and hard positives; (iii) how the proposed bimodal contrastive learning boost the cross-lingual semantic search performance; and (iv) how the pretraining schemes decide the downstream task performance scales with the model size.
Abstract（参考訳）: 近年の研究では、大規模なコード言語モデルがダウンストリームタスク、すなわちコード生成において著しいパフォーマンス向上を示していることが示されている。しかし、既存のモデルのほとんどは、非常に限定的な事前学習コーパスを使用して、1億のパラメータスケールでのコード表現学習トレインモデルに取り組んでいる。本研究では,2段階事前学習方式を用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用してエンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。我々は,既存のモデルを多種多様な下流タスクに対して,大きなマージンで永続的に上回る,既定エンコーダモデルを確立する。コード表現学習の成功に寄与する要因を理解するために,我々は詳細なアブレーションを行い,その知見を共有する。 i) ソースコードのカスタマイズ及び効果的なトークンレベルの復号化方式 (ii) 硬い否定と硬い肯定の重要性 (iii)提案するバイモーダルコントラスト学習が言語間意味検索性能をいかに高めるか,および (iv)プリトレーニングスキームがダウンストリームタスクのパフォーマンスをモデルサイズに応じてどのように決定するか。

関連論文リスト

On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。 1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文参考訳（メタデータ） (2025-07-19T00:48:20Z)
One Model to Train them All: Hierarchical Self-Distillation for Enhanced Early Layer Embeddings [2.1262605464247812]
1Bパラメータを持つモジュール型マルチエグジットエンコーダであるMODcularSTARENCODERを導入し、コード検索の範囲内での複数のタスクに有用である。本アーキテクチャは,構文構造と意味構造を体系的に捉えることで,テキスト・ツー・コード検索とコード・ツー・コード検索の強化に重点を置いている。また、コード翻訳によって構築された新しいデータセットもリリースし、様々なプログラミング言語にまたがって、従来のテキスト-コードベンチマークをシームレスに拡張しました。
論文参考訳（メタデータ） (2025-03-04T21:08:17Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
DemoCraft: Using In-Context Learning to Improve Code Generation in Large Language Models [0.0]
テキスト内学習と実演選択を活用してコード生成を向上させるDemoCraftを提案する。潜在概念学習は、タスク固有の知識をキャプチャするトレーニング可能な埋め込みである、追加の概念トークンを導入している。実験の結果,提案方式はpass@kの2倍の精度向上を実現していることがわかった。我々の実証研究は、我々のシステムがこれらの指標の約3倍の改善を達成したことを示唆している。
論文参考訳（メタデータ） (2024-10-30T19:45:50Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
Collaborative decoding of critical tokens for boosting factuality of large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文参考訳（メタデータ） (2024-02-28T01:53:37Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。