論文の概要: Multi-Agent Collaboration for Multilingual Code Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.07487v1
- Date: Tue, 11 Feb 2025 11:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:11.313531
- Title: Multi-Agent Collaboration for Multilingual Code Instruction Tuning
- Title(参考訳): 多言語コードインストラクションチューニングのためのマルチエージェント協調
- Authors: Jian Yang, Wei Zhang, Jiaxi Yang, Yibo Miao, Shanghaoran Quan, Zhenhe Wu, Qiyao Peng, Liqun Yang, Tianyu Liu, Zeyu Cui, Binyuan Hui, Junyang Lin,
- Abstract要約: コードLLMのための多言語命令チューニングを強化するための,新しいマルチエージェント協調フレームワークを提案する。
生成メモリを備えた複数の言語固有のインテリジェントエージェントコンポーネントが協調して、ある言語から別の言語に知識を効率よく伝達する。
多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示している。
- 参考スコア(独自算出の注目度): 41.74155456003822
- License:
- Abstract: Recent advancement in code understanding and generation demonstrates that code LLMs fine-tuned on a high-quality instruction dataset can gain powerful capabilities to address wide-ranging code-related tasks. However, most previous existing methods mainly view each programming language in isolation and ignore the knowledge transfer among different programming languages. To bridge the gap among different programming languages, we introduce a novel multi-agent collaboration framework to enhance multilingual instruction tuning for code LLMs, where multiple language-specific intelligent agent components with generation memory work together to transfer knowledge from one language to another efficiently and effectively. Specifically, we first generate the language-specific instruction data from the code snippets and then provide the generated data as the seed data for language-specific agents. Multiple language-specific agents discuss and collaborate to formulate a new instruction and its corresponding solution (A new programming language or existing programming language), To further encourage the cross-lingual transfer, each agent stores its generation history as memory and then summarizes its merits and faults. Finally, the high-quality multilingual instruction data is used to encourage knowledge transfer among different programming languages to train Qwen2.5-xCoder. Experimental results on multilingual programming benchmarks demonstrate the superior performance of Qwen2.5-xCoder in sharing common knowledge, highlighting its potential to reduce the cross-lingual gap.
- Abstract(参考訳): コード理解と生成の最近の進歩は、高品質な命令データセットに微調整されたLLMが、広範囲なコード関連タスクに対処する強力な能力を得ることができることを示している。
しかし、既存のほとんどのメソッドは、主にそれぞれのプログラミング言語を独立して見ることができ、異なるプログラミング言語間の知識伝達を無視している。
異なる言語間のギャップを埋めるために,複数の言語固有の知的エージェントコンポーネントと生成メモリが連携して,知識をある言語から別の言語へ効率よく伝達する,多言語的命令チューニングをコードLLMに拡張する,新しいマルチエージェント協調フレームワークを導入する。
具体的には,まずコードスニペットから言語固有の命令データを生成し,生成したデータを言語固有のエージェントのシードデータとして提供する。
複数の言語固有のエージェントが、新しい命令とその対応するソリューション(新しいプログラミング言語または既存のプログラミング言語)を議論し、協力する。さらに言語間転送を促進するために、各エージェントは、生成履歴をメモリとして保存し、そのメリットと欠点を要約する。
最後に、Qwen2.5-xCoderを訓練するために、異なるプログラミング言語間の知識伝達を促進するために、高品質な多言語命令データを使用する。
多言語プログラミングベンチマークの実験結果は、共通知識を共有する上でQwen2.5-xCoderの優れた性能を示し、言語間ギャップを減らす可能性を示している。
関連論文リスト
- A Joint Learning Model with Variational Interaction for Multilingual Program Translation [10.77747590700758]
プログラム翻訳のための変分相互作用(VIM-PT)は、言語間の多言語プログラム翻訳のための統一モデルを共同で訓練する生成的アプローチである。
VIM-PTは、変分推論と新しい下界との相互作用情報を用いて、コードを言語共有と言語固有の特徴に分解し、条件付き生成を通じてプログラム翻訳を行う。
論文 参考訳(メタデータ) (2024-08-25T11:33:52Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Learning Transfers over Several Programming Languages [5.350495525141013]
言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
学習は、複数のプログラミング言語間でうまく伝達される。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - MetaTPTrans: A Meta Learning Approach for Multilingual Code
Representation Learning [5.434698132994918]
多言語コード表現学習のためのメタ学習手法であるMetaTPTransを提案する。
本稿では,MetaTPTransが最先端アプローチのF1スコアを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-06-13T20:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。