論文の概要: Unveiling Linguistic Regions in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14700v2
- Date: Mon, 27 May 2024 06:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:05:34.258032
- Title: Unveiling Linguistic Regions in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語領域の展開
- Authors: Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang,
- Abstract要約: 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
- 参考スコア(独自算出の注目度): 49.298360366468934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated considerable cross-lingual alignment and generalization ability. Current research primarily focuses on improving LLMs' cross-lingual generalization capabilities. However, there is still a lack of research on the intrinsic mechanisms of how LLMs achieve cross-lingual alignment. From the perspective of region partitioning, this paper conducts several investigations on the linguistic competence of LLMs. We discover a core region in LLMs that corresponds to linguistic competence, accounting for approximately 1% of the total model parameters. Removing this core region by setting parameters to zero results in a significant performance decrease across 30 different languages. Furthermore, this core region exhibits significant dimensional dependency, perturbations to even a single parameter on specific dimensions leading to a loss of linguistic competence. Moreover, we discover that distinct monolingual regions exist for different languages, and disruption to these specific regions substantially reduces the LLMs' proficiency in those corresponding languages. Our research also indicates that freezing the core linguistic region during further pre-training can mitigate the issue of catastrophic forgetting (CF), a common phenomenon observed during further pre-training of LLMs. Overall, exploring the LLMs' functional regions provides insights into the foundation of their intelligence.
- Abstract(参考訳): 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
現在の研究は主にLLMの言語間一般化能力の改善に焦点を当てている。
しかし、LLMが言語間アライメントを実現するための本質的なメカニズムについてはまだ研究されていない。
本稿では,地域分割の観点から,LLMの言語能力に関するいくつかの調査を行う。
我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占める。
パラメータをゼロにすることでコア領域を取り除いた結果、30の異なる言語で大幅にパフォーマンスが低下する。
さらに、この中核領域は、言語能力の喪失につながる特定の次元上の1つのパラメータでさえも、大きな次元依存性、摂動を示す。
さらに、異なる言語に対して異なる単言語領域が存在することが分かり、これらの特定領域の破壊は、対応する言語におけるLLMの習熟度を大幅に低下させる。
また,本研究は,LLMのさらなる事前訓練中に観察される共通現象である,破滅的忘れ (CF) の問題を緩和する上で,コア言語領域の凍結が重要であることも示唆した。
全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。
関連論文リスト
- Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Large Language Models on Lexical Semantic Change Detection: An
Evaluation [0.8158530638728501]
Lexical Semantic Change Detectionは、Large Language Models(LLM)が広く関与していない数少ない領域の1つである。
本研究は,3世代にわたる言語モデルにまたがる,新しいプロンプトソリューションと包括的評価を提示する。
論文 参考訳(メタデータ) (2023-12-10T21:26:35Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。