論文の概要: One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.17401v1
- Date: Tue, 26 Nov 2024 13:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:04.209322
- Title: One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models
- Title(参考訳): 一つの心と多くの舌:大規模言語モデルにおける言語に依存しない知識ニューロンの深い研究
- Authors: Pengfei Cao, Yuheng Chen, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
- 参考スコア(独自算出の注目度): 19.58983929459173
- License:
- Abstract: Large language models (LLMs) have learned vast amounts of factual knowledge through self-supervised pre-training on large-scale corpora. Meanwhile, LLMs have also demonstrated excellent multilingual capabilities, which can express the learned knowledge in multiple languages. However, the knowledge storage mechanism in LLMs still remains mysterious. Some researchers attempt to demystify the factual knowledge in LLMs from the perspective of knowledge neurons, and subsequently discover language-agnostic knowledge neurons that store factual knowledge in a form that transcends language barriers. However, the preliminary finding suffers from two limitations: 1) High Uncertainty in Localization Results. Existing study only uses a prompt-based probe to localize knowledge neurons for each fact, while LLMs cannot provide consistent answers for semantically equivalent queries. Thus, it leads to inaccurate localization results with high uncertainty. 2) Lack of Analysis in More Languages. The study only analyzes language-agnostic knowledge neurons on English and Chinese data, without exploring more language families and languages. Naturally, it limits the generalizability of the findings. To address aforementioned problems, we first construct a new benchmark called Rephrased Multilingual LAMA (RML-LAMA), which contains high-quality cloze-style multilingual parallel queries for each fact. Then, we propose a novel method named Multilingual Integrated Gradients with Uncertainty Estimation (MATRICE), which quantifies the uncertainty across queries and languages during knowledge localization. Extensive experiments show that our method can accurately localize language-agnostic knowledge neurons. We also further investigate the role of language-agnostic knowledge neurons in cross-lingual knowledge editing, knowledge enhancement and new knowledge injection.
- Abstract(参考訳): 大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能も示している。
しかし、LLMの知識記憶機構はまだ謎のままである。
一部の研究者は、LLMにおける事実知識を知識ニューロンの観点から解き明かそうとするが、その後、事実知識を言語障壁を超越する形で保存する言語に依存しない知識ニューロンを発見する。
しかし、予備的な発見には2つの制限がある。
1) ローカライゼーション結果における高い不確かさ。
既存の研究では、各事実の知識ニューロンをローカライズするためにプロンプトベースのプローブのみを使用しており、LLMは意味論的に等価なクエリに対して一貫した回答を提供することはできない。
したがって、不確実性の高い不正確な局所化結果につながる。
2)多言語における分析の欠如
この研究は、より多くの言語家族や言語を探索することなく、英語と中国語のデータに基づいて言語に依存しない知識ニューロンを分析する。
当然、それは発見の一般化性を制限する。
上記の問題に対処するため,我々はまずRML-LAMA(Rephrased Multilingual LAMA)という,高品質なクローゼスタイルの並列クエリを含む新しいベンチマークを構築した。
そこで本稿では,知識ローカライズ中のクエリや言語間の不確実性を定量化する,Multilingual Integrated Gradients with Uncertainty Estimation (MATRICE)を提案する。
広汎な実験により,本手法は言語に依存しない知識ニューロンを正確にローカライズできることが示された。
また,言語に依存しない知識ニューロンが言語間知識編集,知識向上,新たな知識注入において果たす役割についても検討した。
関連論文リスト
- The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units [16.317199232071232]
大規模言語モデル(LLM)は、言語タスクだけでなく、言語的でない様々なタスクにも顕著な能力を示す。
人間の脳では、神経科学は言語処理を選択的に因果的にサポートするコア言語システムを特定している。
言語選択単位を18のLLMで同定し、神経科学で用いられるのと同じ局所化手法を用いて同定する。
論文 参考訳(メタデータ) (2024-11-04T17:09:10Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロン(LAFN)と呼ばれる共有ニューロンの集合を活性化する。
これらのニューロンは言語間で共有されるのと同じ事実知識を表しており、多言語知識間の意味的関連を示唆している。
言語非依存のFactual Neurons(LU-LAFN)を位置決め・更新することで,多言語知識を同時に編集する新しいMKE法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:06:56Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Revealing the Parallel Multilingual Learning within Large Language Models [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T03:33:46Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文 参考訳(メタデータ) (2023-08-25T06:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。