論文の概要: The Emergence of Abstract Thought in Large Language Models Beyond Any Language
- arxiv url: http://arxiv.org/abs/2506.09890v1
- Date: Wed, 11 Jun 2025 16:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.117018
- Title: The Emergence of Abstract Thought in Large Language Models Beyond Any Language
- Title(参考訳): あらゆる言語を超えた大規模言語モデルにおける抽象的思考の出現
- Authors: Yuxin Chen, Yiran Zhao, Yang Zhang, An Zhang, Kenji Kawaguchi, Shafiq Joty, Junnan Li, Tat-Seng Chua, Michael Qizhe Shieh, Wenxuan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
- 参考スコア(独自算出の注目度): 95.50197866832772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance, their capacity to function effectively across a diverse range of languages has shown marked improvement. Preliminary studies observe that the hidden activations of LLMs often resemble English, even when responding to non-English prompts. This has led to the widespread assumption that LLMs may "think" in English. However, more recent results showing strong multilingual performance, even surpassing English performance on specific tasks in other languages, challenge this view. In this work, we find that LLMs progressively develop a core language-agnostic parameter space-a remarkably small subset of parameters whose deactivation results in significant performance degradation across all languages. This compact yet critical set of parameters underlies the model's ability to generalize beyond individual languages, supporting the emergence of abstract thought that is not tied to any specific linguistic system. Specifically, we identify language-related neurons-those are consistently activated during the processing of particular languages, and categorize them as either shared (active across multiple languages) or exclusive (specific to one). As LLMs undergo continued development over time, we observe a marked increase in both the proportion and functional importance of shared neurons, while exclusive neurons progressively diminish in influence. These shared neurons constitute the backbone of the core language-agnostic parameter space, supporting the emergence of abstract thought. Motivated by these insights, we propose neuron-specific training strategies tailored to LLMs' language-agnostic levels at different development stages. Experiments across diverse LLM families support our approach.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩を続けるにつれ、多種多様な言語で効果的に機能する能力は著しく向上している。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
このことは、LLMが英語で「考える」可能性があるという広く仮定に繋がった。
しかし、近年の成果は、他の言語の特定のタスクにおける英語のパフォーマンスを超越した、強い多言語のパフォーマンスを示しており、この見解に異議を唱えている。
本研究では,LLMが言語に依存しないパラメータ空間を徐々に発展させ,不活性化によって全ての言語で性能が著しく低下するパラメータの驚くほど小さなサブセットであることを示す。
このコンパクトで批判的なパラメータセットは、モデルが個々の言語を超えて一般化する能力の基盤となり、特定の言語体系に縛られない抽象的思考の出現を支えている。
具体的には、言語関連ニューロンは、特定の言語の処理中に一貫して活性化され、共有(複数の言語にまたがる活動)または排他的(特定のもの)に分類される。
LLMは時間とともに発展を続け、共有ニューロンの比率と機能的重要性の両方が顕著に増加し、排他ニューロンは徐々に影響を減少させていく。
これらの共有ニューロンは、コア言語に依存しないパラメータ空間のバックボーンを構成し、抽象的思考の出現を支持する。
これらの知見に刺激されて、異なる発達段階におけるLLMの言語非依存レベルに合わせて、ニューロン特異的なトレーニング戦略を提案する。
多様なLLMファミリーを対象とした実験は、我々のアプローチを支持している。
関連論文リスト
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。