論文の概要: How do Large Language Models Handle Multilingualism?
- arxiv url: http://arxiv.org/abs/2402.18815v1
- Date: Thu, 29 Feb 2024 02:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:25:40.651207
- Title: How do Large Language Models Handle Multilingualism?
- Title(参考訳): 大規模言語モデルは多言語をどう扱うか?
- Authors: Yiran Zhao, Wenxuan Zhang, Guizhen Chen, Kenji Kawaguchi, Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
- 参考スコア(独自算出の注目度): 87.06210331315451
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable performance across a
spectrum of languages. In this work, we delve into the question: How do LLMs
handle multilingualism? We introduce a framework that depicts LLMs' processing
of multilingual inputs: In the first several layers, LLMs understand the
question, converting multilingual inputs into English to facilitate the
task-solving phase. In the intermediate layers, LLMs engage in problem-solving
by thinking in English and incorporating multilingual knowledge to obtain
factual content, leveraging the self-attention and feed-forward structures,
respectively. In the last several layers, LLMs generate responses that align
with the original language of the query. In addition, we investigate the
existence of language-specific neurons when processing a certain language. To
detect neurons activated by the input language, even without labels, we
innovatively design a Parallel Language specific Neuron Detection
($\texttt{PLND}$) method that effectively measures the significance of neurons
when handling multilingual inputs. By comprehensive ablation analysis through
deactivating neurons of different layers and structures, we verify the
framework that we propose. Additionally, we demonstrate that we can utilize
such a framework to effectively enhance the multilingual ability with much less
training effort.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMは多言語主義をどのように扱うのか?
最初のいくつかのレイヤでは、llmsが質問を理解し、多言語入力を英語に変換してタスク解決のフェーズを容易にする。
中間層では、LLMは英語で考えることで問題解決に取り組み、多言語知識を取り入れて、それぞれが自己意識とフィードフォワード構造を活用。
最後の数層では、LLMはクエリの本来の言語と一致したレスポンスを生成する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
入力言語によって活性化されるニューロンをラベル無しに検出するために,多言語入力を扱う際のニューロンの意義を効果的に測定する並列言語特異的ニューロン検出法(\texttt{plnd}$)を革新的に設計する。
異なる層や構造の非活性化ニューロンによる包括的アブレーション解析により、提案する枠組みを検証する。
さらに,このような枠組みを活用して,学習労力をはるかに少なくして,多言語能力を効果的に向上できることを実証する。
関連論文リスト
- Large Language Models are Parallel Multilingual Learners [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T03:33:46Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns within
Large Language Models [25.622592561262024]
大規模言語モデル(LLM)の多言語アクティベーションパターンについて検討する。
我々は,非言語特異的ニューロンと言語特異的活性化ニューロンの存在を発見した。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。