論文の概要: How Programming Concepts and Neurons Are Shared in Code Language Models
- arxiv url: http://arxiv.org/abs/2506.01074v1
- Date: Sun, 01 Jun 2025 16:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.92036
- Title: How Programming Concepts and Neurons Are Shared in Code Language Models
- Title(参考訳): プログラミングの概念とニューロンがコード言語モデルでどのように共有されるか
- Authors: Amir Hossein Kargaran, Yihong Liu, François Yvon, Hinrich Schütze,
- Abstract要約: 2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。
概念空間は英語に近づき(PLキーワードを含む)、中間層後半の英語トークンに高い確率を割り当てる。
我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
- 参考スコア(独自算出の注目度): 55.22005737371843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several studies have explored the mechanisms of large language models (LLMs) in coding tasks, but most have focused on programming languages (PLs) in a monolingual setting. In this paper, we investigate the relationship between multiple PLs and English in the concept space of LLMs. We perform a few-shot translation task on 21 PL pairs using two Llama-based models. By decoding the embeddings of intermediate layers during this task, we observe that the concept space is closer to English (including PL keywords) and assigns high probabilities to English tokens in the second half of the intermediate layers. We analyze neuron activations for 11 PLs and English, finding that while language-specific neurons are primarily concentrated in the bottom layers, those exclusive to each PL tend to appear in the top layers. For PLs that are highly aligned with multiple other PLs, identifying language-specific neurons is not feasible. These PLs also tend to have a larger keyword set than other PLs and are closer to the model's concept space regardless of the input/output PL in the translation task. Our findings provide insights into how LLMs internally represent PLs, revealing structural patterns in the model's concept space. Code is available at https://github.com/cisnlp/code-specific-neurons.
- Abstract(参考訳): いくつかの研究は、コーディングタスクにおける大規模言語モデル(LLM)のメカニズムを探求してきたが、その多くは単言語環境でのプログラミング言語(PL)に焦点を当てている。
本稿では,LLMの概念空間における複数のPLと英語の関係について検討する。
2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。
この作業中に中間層の埋め込みを復号することにより、概念空間が英語に近い(PLキーワードを含む)ことを観察し、中間層後半の英語トークンに高い確率を割り当てる。
我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
他の複数のPLと高度に整合しているPLでは、言語特異的ニューロンの同定は不可能である。
これらのPLは、他のPLよりも大きなキーワードセットを持ち、翻訳タスクの入出力PLによらず、モデルの概念空間に近い傾向にある。
本研究は,LLMがPLを内部的にどのように表現するかを考察し,モデルの概念空間の構造パターンを明らかにした。
コードはhttps://github.com/cisnlp/code-specific-neuronsで入手できる。
関連論文リスト
- Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。