論文の概要: Unveiling A Core Linguistic Region in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.14928v1
- Date: Mon, 23 Oct 2023 13:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 19:59:26.897016
- Title: Unveiling A Core Linguistic Region in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるコア言語領域の公開
- Authors: Jun Zhao, Zhihao Zhang, Yide Ma, Qi Zhang, Tao Gui, Luhui Gao and
Xuanjing Huang
- Abstract要約: 本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
- 参考スコア(独自算出の注目度): 49.860260050718516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brain localization, which describes the association between specific regions
of the brain and their corresponding functions, is widely accepted in the field
of cognitive science as an objective fact. Today's large language models (LLMs)
possess human-level linguistic competence and can execute complex tasks
requiring abstract knowledge and reasoning. To deeply understand the inherent
mechanisms of intelligence emergence in LLMs, this paper conducts an analogical
research using brain localization as a prototype. We have discovered a core
region in LLMs that corresponds to linguistic competence, accounting for
approximately 1% of the total model parameters. This core region exhibits
significant dimension dependency, and perturbations to even a single parameter
on specific dimensions can lead to a loss of linguistic competence.
Furthermore, we observe that an improvement in linguistic competence does not
necessarily accompany an elevation in the model's knowledge level, which might
imply the existence of regions of domain knowledge that are dissociated from
the linguistic region. Overall, exploring the LLMs' functional regions provides
insights into the foundation of their intelligence. In the future, we will
continue to investigate knowledge regions within LLMs and the interactions
between them.
- Abstract(参考訳): 脳の特定の領域とその機能の間の関係を記述する脳局在は、認知科学の分野において客観的事実として広く受け入れられている。
今日の大きな言語モデル(LLM)は人間レベルの言語能力を持ち、抽象的な知識と推論を必要とする複雑なタスクを実行することができる。
llmsにおける知性出現のメカニズムを深く理解するため,本論文では,脳の局在をプロトタイプとして用いた類似研究を行う。
我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占めた。
この中核領域は重要な次元依存性を示し、特定の次元上の1つのパラメータでさえ摂動は言語能力の喪失につながる。
さらに、言語能力の向上は必ずしもモデルの知識レベルの上昇を伴うものではなく、言語領域から分離したドメイン知識の領域の存在を暗示していると考えられる。
全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。
今後,LLM内の知識領域とそれらの相互作用について検討を続ける。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unveiling Linguistic Regions in Large Language Models [52.88954646359624]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [10.567239684448344]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Dissociating language and thought in large language models [55.51583339260924]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
言語規則とパターンの理解-および機能的言語能力-世界における言語の理解と利用-を区別してLLMを評価する。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。