論文の概要: How Programming Concepts and Neurons Are Shared in Code Language Models
- arxiv url: http://arxiv.org/abs/2506.01074v1
- Date: Sun, 01 Jun 2025 16:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.92036
- Title: How Programming Concepts and Neurons Are Shared in Code Language Models
- Title(参考訳): プログラミングの概念とニューロンがコード言語モデルでどのように共有されるか
- Authors: Amir Hossein Kargaran, Yihong Liu, François Yvon, Hinrich Schütze,
- Abstract要約: 2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。
概念空間は英語に近づき(PLキーワードを含む)、中間層後半の英語トークンに高い確率を割り当てる。
我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
- 参考スコア(独自算出の注目度): 55.22005737371843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several studies have explored the mechanisms of large language models (LLMs) in coding tasks, but most have focused on programming languages (PLs) in a monolingual setting. In this paper, we investigate the relationship between multiple PLs and English in the concept space of LLMs. We perform a few-shot translation task on 21 PL pairs using two Llama-based models. By decoding the embeddings of intermediate layers during this task, we observe that the concept space is closer to English (including PL keywords) and assigns high probabilities to English tokens in the second half of the intermediate layers. We analyze neuron activations for 11 PLs and English, finding that while language-specific neurons are primarily concentrated in the bottom layers, those exclusive to each PL tend to appear in the top layers. For PLs that are highly aligned with multiple other PLs, identifying language-specific neurons is not feasible. These PLs also tend to have a larger keyword set than other PLs and are closer to the model's concept space regardless of the input/output PL in the translation task. Our findings provide insights into how LLMs internally represent PLs, revealing structural patterns in the model's concept space. Code is available at https://github.com/cisnlp/code-specific-neurons.
- Abstract(参考訳): いくつかの研究は、コーディングタスクにおける大規模言語モデル(LLM)のメカニズムを探求してきたが、その多くは単言語環境でのプログラミング言語(PL)に焦点を当てている。
本稿では,LLMの概念空間における複数のPLと英語の関係について検討する。
2つのLlamaモデルを用いて,21個のPLペアに対して数ショットの翻訳処理を行う。
この作業中に中間層の埋め込みを復号することにより、概念空間が英語に近い(PLキーワードを含む)ことを観察し、中間層後半の英語トークンに高い確率を割り当てる。
我々は11個のPLと英語のニューロンの活性化を分析し、言語特異的ニューロンが主に下層に集中しているのに対し、各PL専用のニューロンは上層に現れる傾向にあることを示した。
他の複数のPLと高度に整合しているPLでは、言語特異的ニューロンの同定は不可能である。
これらのPLは、他のPLよりも大きなキーワードセットを持ち、翻訳タスクの入出力PLによらず、モデルの概念空間に近い傾向にある。
本研究は,LLMがPLを内部的にどのように表現するかを考察し,モデルの概念空間の構造パターンを明らかにした。
コードはhttps://github.com/cisnlp/code-specific-neuronsで入手できる。
関連論文リスト
- The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - Programming Language Agnostic Mining of Code and Language Pairs with
Sequence Labeling Based Question Answering [15.733292367610627]
自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。
PLに依存しない方法でNL-PLペアをマイニングするためのシーケンスラベルに基づく質問応答法(SLQA)を提案する。
論文 参考訳(メタデータ) (2022-03-21T05:33:59Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。