Fugu-MT 論文翻訳(概要): Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons

論文の概要: Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons

arxiv url: http://arxiv.org/abs/2506.01629v1
Date: Mon, 02 Jun 2025 13:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.750232
Title: Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons
Title（参考訳）: 言語間一般化と圧縮:言語特化から共有ニューロンへ
Authors: Frederick Riemenschneider, Anette Frank,
Abstract要約: 事前学習中に多言語言語モデルがどのように進化するかを考察する。我々は、各層にまたがる一様言語識別機能から、より特殊な層関数への遷移を観察する。言語間の同じ概念に対する信頼性の高い予測因子として出現する特定のニューロンを同定する。
参考スコア（独自算出の注目度）: 20.13484267765109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual language models (MLLMs) have demonstrated remarkable abilities to transfer knowledge across languages, despite being trained without explicit cross-lingual supervision. We analyze the parameter spaces of three MLLMs to study how their representations evolve during pre-training, observing patterns consistent with compression: models initially form language-specific representations, which gradually converge into cross-lingual abstractions as training progresses. Through probing experiments, we observe a clear transition from uniform language identification capabilities across layers to more specialized layer functions. For deeper analysis, we focus on neurons that encode distinct semantic concepts. By tracing their development during pre-training, we show how they gradually align across languages. Notably, we identify specific neurons that emerge as increasingly reliable predictors for the same concepts across languages.
Abstract（参考訳）: 多言語言語モデル(MLLM)は、明示的な言語間監督なしで訓練されているにもかかわらず、言語間で知識を伝達する顕著な能力を示した。我々は,3つのMLLMのパラメータ空間を分析し,事前学習中にそれらの表現がどのように進化するかを解析し,圧縮に整合したパターンを観察する:モデルが最初に言語固有の表現を形成し,訓練が進むにつれて徐々に言語間抽象に収束する。探索実験を通じて,各層にまたがる一様言語識別能力から,より特殊な層関数への明確な遷移を観察する。より深い分析のために、我々は異なる意味概念をエンコードするニューロンに焦点を当てる。事前学習中に開発をトレースすることで、言語間でどのように徐々に整合していくかを示す。特に、言語間の同じ概念に対する信頼性の高い予測因子として現れる特定のニューロンを特定します。

関連論文リスト

When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文参考訳（メタデータ） (2026-01-30T11:23:01Z)
The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文参考訳（メタデータ） (2025-05-27T17:59:52Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文参考訳（メタデータ） (2024-10-15T15:49:15Z)
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文参考訳（メタデータ） (2024-06-24T07:27:01Z)
Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。ニューロンの重なり合いと下流性能の相関関係を観察する。
論文参考訳（メタデータ） (2024-06-19T05:31:59Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
Are Structural Concepts Universal in Transformer Language Models? Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文参考訳（メタデータ） (2023-10-19T14:50:51Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文参考訳（メタデータ） (2022-05-23T09:25:43Z)
Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。 43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文参考訳（メタデータ） (2022-05-04T12:22:31Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。