論文の概要: Sparse Autoencoders Can Capture Language-Specific Concepts Across Diverse Languages
- arxiv url: http://arxiv.org/abs/2507.11230v2
- Date: Tue, 29 Jul 2025 13:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.356436
- Title: Sparse Autoencoders Can Capture Language-Specific Concepts Across Diverse Languages
- Title(参考訳): スパースオートエンコーダは、多言語間の言語固有の概念をキャプチャできる
- Authors: Lyzander Marciano Andrylie, Inaya Rahmanisa, Mahardika Krisna Ihsani, Alfan Farizki Wicaksono, Haryo Akbarianto Wibowo, Alham Fikri Aji,
- Abstract要約: 既存の研究はしばしば個々のニューロンに焦点を当てているが、その多意味性は言語固有の単位を分離することが困難である。
本稿では,機能アクティベーション確率に基づくSAE-LAPEを用いて,フィードフォワードネットワーク内の言語固有の特徴を識別する手法を提案する。
これらの機能は、モデルの多言語パフォーマンスと言語出力に影響を与え、fastTextに匹敵するパフォーマンスを持つ言語識別に使用できる。
- 参考スコア(独自算出の注目度): 11.19692440351977
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding the multilingual mechanisms of large language models (LLMs) provides insight into how they process different languages, yet this remains challenging. Existing studies often focus on individual neurons, but their polysemantic nature makes it difficult to isolate language-specific units from cross-lingual representations. To address this, we explore sparse autoencoders (SAEs) for their ability to learn monosemantic features that represent concrete and abstract concepts across languages in LLMs. While some of these features are language-independent, the presence of language-specific features remains underexplored. In this work, we introduce SAE-LAPE, a method based on feature activation probability, to identify language-specific features within the feed-forward network. We find that many such features predominantly appear in the middle to final layers of the model and are interpretable. These features influence the model's multilingual performance and language output and can be used for language identification with performance comparable to fastText along with more interpretability. Our code is available at https://github.com/LyzanderAndrylie/language-specific-features
- Abstract(参考訳): 大きな言語モデル(LLM)の多言語メカニズムを理解することは、異なる言語をどのように処理するかについての洞察を提供するが、これは依然として困難である。
既存の研究はしばしば個々のニューロンに焦点を当てているが、その多意味性は言語固有の単位を言語間表現から分離することが困難である。
そこで本研究では,LLMにおける言語間の具体的な抽象概念を表す単意味的特徴を学習するための,スパースオートエンコーダ(SAE)について検討する。
これらの機能の中には言語に依存しないものもあるが、言語固有の機能の存在はいまだ解明されていない。
本研究では,機能アクティベーション確率に基づくSAE-LAPEを導入し,フィードフォワードネットワーク内の言語固有の特徴を識別する。
このような特徴の多くは、主にモデルの中間層から最終層に現れ、解釈可能である。
これらの機能はモデルの多言語のパフォーマンスと言語出力に影響し、より解釈性のあるfastTextに匹敵するパフォーマンスを持つ言語識別に使用できる。
私たちのコードはhttps://github.com/LyzanderAndrylie/ language-specific-featuresで利用可能です。
関連論文リスト
- Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders [41.1110443501488]
SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
論文 参考訳(メタデータ) (2025-05-08T10:24:44Z) - Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか?
Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文 参考訳(メタデータ) (2025-01-10T21:18:21Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。