Fugu-MT 論文翻訳(概要): Qwen2.5-Coder Technical Report

論文の概要: Qwen2.5-Coder Technical Report

arxiv url: http://arxiv.org/abs/2409.12186v2
Date: Mon, 11 Nov 2024 17:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.012053
Title: Qwen2.5-Coder Technical Report
Title（参考訳）: Qwen2.5-Coderテクニカルレポート
Authors: Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Keming Lu, Kai Dang, Yang Fan, Yichang Zhang, An Yang, Rui Men, Fei Huang, Bo Zheng, Yibo Miao, Shanghaoran Quan, Yunlong Feng, Xingzhang Ren, Xuancheng Ren, Jingren Zhou, Junyang Lin,
Abstract要約: 先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
参考スコア（独自算出の注目度）: 105.131580912726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes six models: Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B). As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general and math skills. These models have been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will advance research in code intelligence and, with its permissive licensing, support wider adoption by developers in real-world applications.
Abstract（参考訳）: 本稿では、前任のCodeQwen1.5から大幅にアップグレードしたQwen2.5-Coderシリーズを紹介する。このシリーズには6つのモデルが含まれる: Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B)。コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。巧妙なデータクリーニング、スケーラブルな合成データ生成、バランスの取れたデータミキシングを通じて、Qwen2.5-Coderは、一般と数学のスキルを維持しながら、印象的なコード生成機能を示す。これらのモデルは、コード生成、完了、推論、修復を含む10以上のベンチマークで、最先端(SOTA)のパフォーマンスを達成し、同じモデルサイズのより大きなモデルよりも一貫して優れている、幅広いコード関連タスクで評価されてきた。 Qwen2.5-Coderシリーズのリリースは、コードインテリジェンスの研究を前進させ、その寛容なライセンスによって、現実世界のアプリケーションにおける開発者の広範な採用をサポートするだろうと考えています。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。 RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文参考訳（メタデータ） (2025-02-03T18:46:04Z)
Qwen2.5-1M Technical Report [72.09755998661568]
コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
論文参考訳（メタデータ） (2025-01-26T03:47:25Z)
Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文参考訳（メタデータ） (2024-12-19T17:56:09Z)
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文参考訳（メタデータ） (2024-09-18T16:45:37Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。 DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文参考訳（メタデータ） (2024-01-25T14:17:53Z)
Empirical Study on Transformer-based Techniques for Software Engineering [12.973997150227198]
既存の文献をレビューし、異なるタスクに対するモデルアーキテクチャの適合性について検討し、異なるデータセット上でのモデルの一般化能力について考察する。文献調査で確認した,最もターゲットにされたソフトウェアエンジニアリングタスクのトップ4 – コードの要約,バグ修正,バグ検出,コード検索 – に対して,実験を実施しています。
論文参考訳（メタデータ） (2023-09-30T14:45:22Z)
CCT5: A Code-Change-Oriented Pre-Trained Model [14.225942520238936]
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
論文参考訳（メタデータ） (2023-05-18T07:55:37Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文参考訳（メタデータ） (2023-05-08T07:04:28Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。