論文の概要: Unraveling Babel: Exploring Multilingual Activation Patterns within
Large Language Models
- arxiv url: http://arxiv.org/abs/2402.16367v1
- Date: Mon, 26 Feb 2024 07:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:15:21.607302
- Title: Unraveling Babel: Exploring Multilingual Activation Patterns within
Large Language Models
- Title(参考訳): Unraveling Babel: 大規模言語モデルにおける多言語アクティベーションパターンの探索
- Authors: Weize Liu, Yinlong Xu, Hongxia Xu, Jintai Chen, Xuming Hu, Jian Wu
- Abstract要約: 大規模言語モデル(LLM)の多言語アクティベーションパターンについて検討する。
我々は,非言語特異的ニューロンと言語特異的活性化ニューロンの存在を発見した。
- 参考スコア(独自算出の注目度): 25.622592561262024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) have achieved tremendous breakthroughs
in the field of language processing, yet their mechanisms in processing
multiple languages remain agnostic. Therefore, in this work we study the
multilingual activation patterns of LLMs. By transforming the original Large
Language Models (LLMs) into a Mixture of Experts (MoE) architecture, we analyze
the expert activation patterns when processing various languages and
demonstrate the connections of these activation patterns at the level of
language families. We discover the existence of non-language-specific neurons
as well as language-specific activation neurons. Further exploration even
showcases that merely leveraging high-frequency activation neurons can
accelerate inference while maintaining comparable performance. These findings
shed light on the LLMs' multilingual processing mechanism, and are of
significant importance in guiding the multilingual training and model pruning
of LLMs.
- Abstract(参考訳): 近年、大規模言語モデル(llm)は、言語処理の分野で飛躍的なブレークスルーを達成しているが、複数の言語を処理する上でのメカニズムは、いまだに無依存である。
そこで本研究では,LLMの多言語活性化パターンについて検討する。
オリジナルの大言語モデル(llms)を専門家(moe)アーキテクチャの混合に変換することで、様々な言語を処理する際に専門家のアクティベーションパターンを分析し、これらのアクティベーションパターンの言語ファミリのレベルでの接続を実証する。
我々は,非言語特異的ニューロンと言語特異的活性化ニューロンの存在を発見した。
さらに、高頻度の活性化ニューロンを利用するだけで、同等の性能を維持しながら推論を加速できることを示した。
これらの知見はLLMの多言語処理機構に光を当て、LLMの多言語学習とモデルプルーニングを導く上で非常に重要である。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - How Multilingual is Multilingual LLM? [20.90512352559827]
本研究では,101言語にまたがる徹底的な分析を行うことにより,Large Language Models (LLM) の多言語能力を評価する。
それぞれのクアドラントを掘り下げることで、分類の背後にある理論的根拠を明らかにし、これらの言語をチューニングするための実行可能なガイドラインを提供します。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。