Fugu-MT 論文翻訳(概要): Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

論文の概要: Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

arxiv url: http://arxiv.org/abs/2402.16438v1
Date: Mon, 26 Feb 2024 09:36:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 13:55:12.404169
Title: Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models
Title（参考訳）: 言語特異的ニューロン:大規模言語モデルにおける多言語能力の鍵
Authors: Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen
Abstract要約: 大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
参考スコア（独自算出の注目度）: 122.25217086389425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) demonstrate remarkable multilingual capabilities without being pre-trained on specially curated multilingual parallel corpora. It remains a challenging problem to explain the underlying mechanisms by which LLMs process multilingual texts. In this paper, we delve into the composition of Transformer architectures in LLMs to pinpoint language-specific regions. Specially, we propose a novel detection method, language activation probability entropy (LAPE), to identify language-specific neurons within LLMs. Based on LAPE, we conduct comprehensive experiments on two representative LLMs, namely LLaMA-2 and BLOOM. Our findings indicate that LLMs' proficiency in processing a particular language is predominantly due to a small subset of neurons, primarily situated in the models' top and bottom layers. Furthermore, we showcase the feasibility to "steer" the output language of LLMs by selectively activating or deactivating language-specific neurons. Our research provides important evidence to the understanding and exploration of the multilingual capabilities of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLMが多言語テキストを処理するメカニズムを説明するのは難しい問題である。本稿では,llmにおけるトランスフォーマーアーキテクチャの構成を調べ,言語固有の領域をピンポイントする。具体的には,LLM内の言語特異的ニューロンを識別する言語アクティベーション確率エントロピー(LAPE)を提案する。 LAPEに基づいて,LLaMA-2とBLOOMの2つの代表的なLLMについて包括的な実験を行った。以上の結果から,LLMの特定の言語処理能力は,主にモデル上層と下層に位置する少数のニューロンが原因であることが示唆された。さらに、言語特異的ニューロンを選択的に活性化または非活性化することにより、LLMの出力言語を「ステア」する可能性を示す。本研究は,LLMの多言語能力の理解と探索に重要な証拠を提供する。

関連論文リスト

Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models [60.39744129890118]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
論文参考訳（メタデータ） (2025-08-25T18:15:25Z)
The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文参考訳（メタデータ） (2025-05-27T17:59:52Z)
The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-10T08:28:57Z)
Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文参考訳（メタデータ） (2024-10-15T15:49:15Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文参考訳（メタデータ） (2024-04-01T05:13:56Z)
How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文参考訳（メタデータ） (2023-11-15T16:13:14Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文参考訳（メタデータ） (2023-05-24T02:05:03Z)
A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。本報告では,MLLMに関する研究分野について概説する。
論文参考訳（メタデータ） (2021-07-01T18:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。