論文の概要: Positional Cognitive Specialization: Where Do LLMs Learn To Comprehend and Speak Your Language?
- arxiv url: http://arxiv.org/abs/2604.00923v1
- Date: Wed, 01 Apr 2026 14:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.024155
- Title: Positional Cognitive Specialization: Where Do LLMs Learn To Comprehend and Speak Your Language?
- Title(参考訳): 位置認知のスペシャライゼーション:LLMはどのようにして言語を理解し、話すのか?
- Authors: Luis Frentzen Salim, Lun-Wei Ku, Hsing-Kuo Kenneth Pao,
- Abstract要約: 言語モデルの異なる領域において、知覚的および生産的特殊化がどのように現れるかを示す。
我々はCogSymを提案する。CogSymは、初期層と後期層のみを微調整することで、効果的な適応を可能にするレイヤワイド特殊化である。
- 参考スコア(独自算出の注目度): 7.398212299621878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large language models (LLMs) to new languages is an expensive and opaque process. Understanding how language models acquire new languages and multilingual abilities is key to achieve efficient adaptation. Prior work on multilingual interpretability research focuses primarily on how trained models process multilingual instructions, leaving unexplored the mechanisms through which they acquire new languages during training. We investigate these training dynamics on decoder-only transformers through the lens of two functional cognitive specializations: language perception (input comprehension) and production (output generation). Through experiments on low-resource languages, we demonstrate how perceptual and productive specialization emerges in different regions of a language model by running layer ablation sweeps from the model's input and output directions. Based on the observed specialization patterns, we propose CogSym, a layer-wise heuristic that enables effective adaptation by exclusively fine-tuning a few early and late layers. We show that tuning only the 25% outermost layers achieves downstream task performance within 2-3% deviation from the full fine-tuning baseline. CogSym yields consistent performance with adapter methods such as LoRA, showcasing generalization beyond full fine-tuning. These findings provide insights to better understand how LLMs learn new languages and push toward accessible and inclusive language modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)を新しい言語に適応させることは、高価で不透明なプロセスである。
言語モデルが新しい言語と多言語能力をどのように獲得するかを理解することは、効率的な適応を実現するための鍵となる。
マルチリンガル解釈可能性の研究は、主に訓練されたモデルがマルチリンガル命令をどのように処理するかに焦点を当てており、トレーニング中に新しい言語を取得するメカニズムを探索していないままである。
言語知覚(インプット理解)と生産(アウトプット生成)の2つの機能的認知特殊化のレンズを通して,デコーダのみの変換器におけるこれらのトレーニングダイナミクスについて検討する。
低リソース言語の実験を通じて,各言語モデルの入力方向と出力方向から層アブレーションを実行することによって,知覚的および生産的特殊化が言語モデルの異なる領域でどのように現れるかを示す。
観察された特殊化パターンに基づいて,いくつかの初期層と後期層のみを微調整することで,効果的な適応を可能にする層ワイドヒューリスティックCagSymを提案する。
そこで本研究では, 25%外層のみをチューニングすることで, 完全微調整ベースラインから2~3%のずれで下流タスク性能が得られることを示す。
CogSymはLoRAのようなアダプタメソッドと一貫した性能を示し、完全な微調整以上の一般化を示す。
これらの発見は、LLMが新しい言語をどのように学習するかをよりよく理解し、アクセシブルで包括的な言語モデリングへと進むための洞察を与えてくれる。
関連論文リスト
- Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models [60.39744129890118]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。
本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。
精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
論文 参考訳(メタデータ) (2025-08-25T18:15:25Z) - CoCo-CoLa: Evaluating and Improving Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:03:53Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。