論文の概要: Qwen2.5-Coder Technical Report
- arxiv url: http://arxiv.org/abs/2409.12186v1
- Date: Wed, 18 Sep 2024 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:21:44.874440
- Title: Qwen2.5-Coder Technical Report
- Title(参考訳): Qwen2.5-Coderテクニカルレポート
- Authors: Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Kai Dang, An Yang, Rui Men, Fei Huang, Xingzhang Ren, Xuancheng Ren, Jingren Zhou, Junyang Lin,
- Abstract要約: 先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。
コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
- 参考スコア(独自算出の注目度): 100.73437491188763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
- Abstract(参考訳): 本稿では、前任のCodeQwen1.5から大幅にアップグレードしたQwen2.5-Coderシリーズを紹介する。
このシリーズには、Qwen2.5-Coder-1.5BとQwen2.5-Coder-7Bの2つのモデルが含まれている。
コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
巧妙なデータクリーニング、スケーラブルな合成データ生成、バランスの取れたデータミキシングを通じて、Qwen2.5-Coderは、汎用性を維持しながら、印象的なコード生成機能を示す。
このモデルは、コード生成、完了、推論、修復を含む10以上のベンチマークで、最先端(SOTA)のパフォーマンスを達成し、同じモデルサイズのより大きなモデルよりも一貫して優れている、幅広いコード関連タスクで評価されてきた。
Qwen2.5-Coderシリーズのリリースは、コードインテリジェンスの研究の境界を推し進めるだけでなく、その寛容なライセンスを通じて、現実世界のアプリケーションにおける開発者による広範な採用を促進するだろうと考えています。
関連論文リスト
- Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - Empirical Study on Transformer-based Techniques for Software Engineering [12.973997150227198]
既存の文献をレビューし、異なるタスクに対するモデルアーキテクチャの適合性について検討し、異なるデータセット上でのモデルの一般化能力について考察する。
文献調査で確認した,最もターゲットにされたソフトウェアエンジニアリングタスクのトップ4 – コードの要約,バグ修正,バグ検出,コード検索 – に対して,実験を実施しています。
論文 参考訳(メタデータ) (2023-09-30T14:45:22Z) - CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。
トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文 参考訳(メタデータ) (2023-05-18T07:55:37Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。