論文の概要: Towards A Generalist Code Embedding Model Based On Massive Data Synthesis
- arxiv url: http://arxiv.org/abs/2505.12697v1
- Date: Mon, 19 May 2025 04:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.406734
- Title: Towards A Generalist Code Embedding Model Based On Massive Data Synthesis
- Title(参考訳): 大量データ合成に基づく汎用コード埋め込みモデルに向けて
- Authors: Chaofan Li, Jianlyu Chen, Yingxia Shao, Defu Lian, Zheng Liu,
- Abstract要約: 汎用コード検索のための最先端の埋め込みモデルである textbfCodeR (underlineCode underlineRetrieval) を導入する。
CodeRの優れたパフォーマンスは、DRU原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
- 参考スコア(独自算出の注目度): 35.04242699869519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code embedding models attract increasing attention due to the widespread popularity of retrieval-augmented generation (RAG) in software development. These models are expected to capture the rich semantic relationships inherent to code, which differ significantly from those found in text. However, existing models remain severely limited due to the scarcity of high-quality training data. In this work, we introduce \textbf{CodeR} (\underline{Code} \underline{R}etrieval), a state-of-the-art embedding model for general-purpose code retrieval. The superior performance of CodeR is built upon CodeR-Pile, a large-scale synthetic dataset constructed under the DRU (Diversity, Reliability, Usability) principle via a novel data synthesis pipeline. To optimize training effectiveness, we propose Annealing, a curriculum learning strategy that enables effective knowledge transfer across heterogeneous sources of data. We evaluate CodeR based on 16 diverse code retrieval tasks, where it significantly outperforms existing baselines and exhibits strong out-of-domain generalization performance. We have publicly released our code and the well-trained model to facilitate further research in this critical area. https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder.
- Abstract(参考訳): コード埋め込みモデルは、ソフトウェア開発における検索強化世代(RAG)の普及により、注目を集めている。
これらのモデルは、コード固有のリッチなセマンティックな関係を捉えることが期待されている。
しかし、既存のモデルは、高品質のトレーニングデータが不足しているため、厳格に制限されている。
本稿では,汎用コード検索のための組込みモデルであるtextbf{CodeR} (\underline{Code} \underline{R}etrieval)を紹介する。
CodeRの優れたパフォーマンスは、新しいデータ合成パイプラインを通じてDRU(Diversity, Reliability, Usability)原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
学習効率を最適化するために、異種データソース間の効果的な知識伝達を可能にするカリキュラム学習戦略であるAnnealingを提案する。
我々は16の多様なコード検索タスクに基づいてCodeRを評価し、既存のベースラインを著しく上回り、ドメイン外一般化性能を示す。
私たちは、この重要な領域のさらなる研究を促進するために、コードと十分に訓練されたモデルを公開した。
https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder。
関連論文リスト
- Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs [1.8838588087156363]
本稿では,コード生成型大規模言語モデル(LLM)の微調整について検討する。
我々は,シンボル実行手法の助けを借りて,報酬モデルのトレーニングデータを強化する。
このデータセットを微調整した報奨モデルでは、ベースラインであるCodeRLよりも大幅に改善されていることが示されています。
論文 参考訳(メタデータ) (2025-04-21T16:29:07Z) - Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。
微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。
リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文 参考訳(メタデータ) (2025-02-23T20:31:21Z) - CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking [45.18877655831977]
CoRNStackは、複数のプログラミング言語にまたがるコードのための、大規模で高品質なコントラストトレーニングデータセットです。
このデータセットは、ノイズ正の除去のために一貫性フィルタリングを用いてキュレートされ、さらに硬い負のマイニングによって濃縮される。
我々は、CoRNStackを用いた埋め込みモデルの対照的なトレーニングが、様々なコード検索タスクにおける最先端のパフォーマンスをもたらすことを実証した。
論文 参考訳(メタデータ) (2024-12-01T23:54:12Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Large Language Model for Verilog Generation with Code-Structure-Guided Reinforcement Learning [29.135207235743795]
本稿では、強化学習によって強化されたLLMであるVeriSeekを紹介し、高いVerilogコード生成性能を実現する。
我々の強化学習アプローチでは、事前学習されたモデルを洗練するためのフィードバック信号として、コード構造情報を用いる。
実験によると、VeriSeekは複数のベンチマークで最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-21T11:25:21Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Source Code Data Augmentation for Deep Learning: A Survey [32.035973285175075]
ソースコードに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
論文 参考訳(メタデータ) (2023-05-31T14:47:44Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。