論文の概要: Beyond Language Boundaries: Uncovering Programming Language Families for Code Language Models
- arxiv url: http://arxiv.org/abs/2512.19509v1
- Date: Mon, 22 Dec 2025 16:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.818898
- Title: Beyond Language Boundaries: Uncovering Programming Language Families for Code Language Models
- Title(参考訳): 言語境界を越えて: コード言語モデルのためのプログラミング言語ファミリを明らかにする
- Authors: Shangbo Yun, Xiaodong Gu, Jianghong Huang, Beijun Shen,
- Abstract要約: プログラミング言語の急速な普及は、多言語コードLLMを開発するための機会と課題の両方を示している。
本稿では,PLの潜伏するファミリーを明らかにするための埋め込み型フレームワークを提案する。
この研究は、プログラミング言語の普遍的な視点を提供し、多言語コードのLLMトレーニングのためのより効果的な戦略を進歩させる。
- 参考スコア(独自算出の注目度): 8.711642038538876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of diverse programming languages presents both opportunities and challenges for developing multilingual code LLMs. While existing techniques often train code LLMs by simply aggregating multilingual code data, few explore the deeper relationships between programming languages(PLs) and how such relationships can be utilized to optimize the training and inference of code LLMs. In this work, we investigate 2 fundamental questions: 1) What are the deep linguistic relationships among PLs? and 2) How can these relationships be leveraged to improve multilingual code LLMs? We propose an embedding-based framework to uncover the latent families of PLs. Our approach begins by defining 21 primary linguistic features of programming languages, such as variable definition, control structures, and method declarations, and then employs LLMs to generate feature-aligned code samples across multiple languages. By embedding these semantically parallel code snippets from 19 languages, we construct a similarity matrix and perform hierarchical clustering to uncover inherent language relationships. Our analysis reveals clear hierarchical structures among programming languages. Closely related languages form well-defined clusters (e.g., C, C++, Java, and Swift group together), while Go exhibits as a central language with the highest cross-language similarity. Building on the uncovered language families, we propose three strategies to enhance multilingual LLM training: transfer learning across linguistically related languages, linguistic proximity-guided curriculum learning, and centroid-based intermediary code translation. Experiments on 4 code intelligence tasks demonstrate that our methods significantly improve multilingual LLM performance. This work offers a universal perspective on programming languages and advances more effective strategies for multilingual code LLM training.
- Abstract(参考訳): 多様なプログラミング言語の急速な普及は、多言語コードLLMを開発するための機会と課題の両方を示している。
既存のテクニックは、単に多言語コードデータを集約することで、LLMを訓練することが多いが、プログラミング言語(PL)間の深い関係と、そのような関係をコードLLMのトレーニングと推論の最適化にどのように利用することができるかを考えることは、ほとんどない。
本研究では,2つの基本的疑問について考察する。
1)PL間の深い言語関係はどのようなものか?
そして
2) これらの関係は多言語コードLLMを改善するためにどのように活用できるのか?
本稿では,PLの潜伏するファミリーを明らかにするための埋め込み型フレームワークを提案する。
提案手法では,変数定義や制御構造,メソッド宣言など,21言語の主要な言語的特徴を定義し,LLMを用いて複数の言語にまたがる特徴整合コードサンプルを生成する。
19言語からこれらのセマンティック並列コードスニペットを埋め込むことで、類似性行列を構築し、階層的クラスタリングを行い、固有の言語関係を明らかにする。
解析の結果,プログラミング言語間の階層構造が明らかとなった。
密接に関連する言語は、明確に定義されたクラスタ(例えば、C、C++、Java、Swiftグループ)を形成します。
本稿では,言語関連言語間の翻訳学習,言語間近誘導型カリキュラム学習,センチロイドによる中間コード翻訳という,多言語LLM学習を強化するための3つの手法を提案する。
4つのコードインテリジェンスタスクの実験により,本手法は多言語LLMの性能を大幅に向上することが示された。
この研究は、プログラミング言語の普遍的な視点を提供し、多言語コードのLLMトレーニングのためのより効果的な戦略を進歩させる。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。