論文の概要: Large Language Models are Parallel Multilingual Learners
- arxiv url: http://arxiv.org/abs/2403.09073v1
- Date: Thu, 14 Mar 2024 03:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-15 21:57:10.114681
- Title: Large Language Models are Parallel Multilingual Learners
- Title(参考訳): 大規模言語モデルは並列多言語学習者である
- Authors: Yongyu Mu, Peinan Feng, Zhiquan Cao, Yuzhang Wu, Bei Li, Chenglong Wang, Tong Xiao, Kai Song, Tongran Liu, Chunliang Zhang, Jingbo Zhu,
- Abstract要約: 本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 50.098518799536144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we reveal an in-context learning (ICL) capability of multilingual large language models (LLMs): by translating the input to several languages, we provide Parallel Input in Multiple Languages (PiM) to LLMs, which significantly enhances their comprehension abilities. To test this capability, we design extensive experiments encompassing 8 typical datasets, 7 languages and 8 state-of-the-art multilingual LLMs. Experimental results show that (1) incorporating more languages help PiM surpass the conventional ICL further; (2) even combining with the translations that are inferior to baseline performance can also help. Moreover, by examining the activated neurons in LLMs, we discover a counterintuitive but interesting phenomenon. Contrary to the common thought that PiM would activate more neurons than monolingual input to leverage knowledge learned from diverse languages, PiM actually inhibits neurons and promotes more precise neuron activation especially when more languages are added. This phenomenon aligns with the neuroscience insight about synaptic pruning, which removes less used neural connections, strengthens remainders, and then enhances brain intelligence.
- Abstract(参考訳): 本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。複数の言語に入力を変換することで,並列入力を複数言語(PiM)からLLMに提供し,その理解能力を大幅に向上させる。
この能力をテストするために,8つの典型的なデータセット,7言語,8つの最先端多言語LPMを含む広範囲な実験を設計した。
実験の結果,(1) より多くの言語を組み込むことで,PiM が従来のICLをさらに上回り,(2) ベースライン性能に劣る翻訳と組み合わせることも有効であることがわかった。
さらに, LLMの活性化ニューロンを調べることで, 直感的ではあるが興味深い現象が発見された。
PiMは単言語入力よりも多くのニューロンを活性化し、多様な言語から学んだ知識を活用するという一般的な考えとは対照的に、PiMは実際にはニューロンを阻害し、特に多くの言語が加えられたときにより正確なニューロン活性化を促進する。
この現象はシナプス・プルーニングに関する神経科学的な洞察と一致し、あまり使われていない神経の接続を除去し、残りの部分を強化し、脳の知性を増強する。
関連論文リスト
- Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation [9.2747149495273]
Llama-3.1-8B, Mistral-Nemo-12B, Aya-Expanse-8B & 32B の言語特異的ニューロンを21言語で解析した。
これらのニューロンはより深い層に集結し、非ラテン語のスクリプトはより高度な特殊化を示す。
不要な言語を非活性化し、望ましい言語をアクティベートし、より単純な代替アプローチよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-30T12:23:39Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文 参考訳(メタデータ) (2024-11-26T13:03:49Z) - Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。
そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:06:56Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。