論文の概要: Unveiling Linguistic Regions in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14700v1
- Date: Thu, 22 Feb 2024 16:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:22:18.682026
- Title: Unveiling Linguistic Regions in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語領域の展開
- Authors: Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang
- Abstract要約: 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
- 参考スコア(独自算出の注目度): 52.88954646359624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated considerable cross-lingual
alignment and generalization ability. Current research primarily focuses on
improving LLMs' cross-lingual generalization capabilities. However, there is
still a lack of research on the intrinsic mechanisms of how LLMs achieve
cross-lingual alignment. From the perspective of region partitioning, this
paper conducts several investigations on the linguistic competence of LLMs. We
discover a core region in LLMs that corresponds to linguistic competence,
accounting for approximately 1% of the total model parameters. Removing this
core region by setting parameters to zero results in a significant performance
decrease across 30 different languages. Furthermore, this core region exhibits
significant dimensional dependency, perturbations to even a single parameter on
specific dimensions leading to a loss of linguistic competence. Moreover, we
discover that distinct regions exist for different monolingual families, and
disruption to these specific regions substantially reduces the LLMs'
proficiency in those corresponding languages. Our research also indicates that
freezing the core linguistic region during further pre-training can mitigate
the issue of catastrophic forgetting (CF), a common occurrence observed during
further pre-training of LLMs. Overall, exploring the LLMs' functional regions
provides insights into the foundation of their intelligence.
- Abstract(参考訳): 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
現在の研究は主にLLMの言語間一般化能力の改善に焦点を当てている。
しかし、LLMが言語間アライメントを実現するための本質的なメカニズムについてはまだ研究されていない。
本稿では,地域分割の観点から,LLMの言語能力に関するいくつかの調査を行う。
我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占める。
パラメータをゼロにすることでコア領域を取り除いた結果、30言語で大幅にパフォーマンスが低下する。
さらに、このコア領域は重要な次元依存性を示し、特定の次元上の単一のパラメータに対する摂動によって言語能力が失われる。
さらに,異なる単一言語族に対して異なる領域が存在することが判明し,これらの特定の領域の破壊は,対応する言語におけるLLMの習熟度を大幅に低下させる。
また,本研究は,LLMのさらなる事前訓練においてよく見られる破滅的忘れ込み (CF) の問題を緩和し,コア言語領域を凍結させることを示唆している。
全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。
関連論文リスト
- Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。