論文の概要: A Universal Vibe? Finding and Controlling Language-Agnostic Informal Register with SAEs
- arxiv url: http://arxiv.org/abs/2603.26236v1
- Date: Fri, 27 Mar 2026 09:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.433843
- Title: A Universal Vibe? Finding and Controlling Language-Agnostic Informal Register with SAEs
- Title(参考訳): ユニバーサルバイブ : SAEを用いた言語非依存型インフォーマルレジスタの検索と制御
- Authors: Uri Z. Kialy, Avi Shtarkberg, Ayal Klein,
- Abstract要約: 多言語言語モデルは、スラングのような文化固有の実用的なレジスタを、独立した言語固有の記憶として、あるいは統一された抽象概念として処理するかを検討する。
目的語はすべて多義語であり、リテラルと非公式の両方の文脈に現れる新しいデータセットを提案する。
非公式登録信号の多くは言語固有の特徴に分散しているが、小さなが非常に堅牢な言語間コアは一貫して出現する。
- 参考スコア(独自算出の注目度): 0.858070544154173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multilingual language models successfully transfer factual and syntactic knowledge across languages, it remains unclear whether they process culture-specific pragmatic registers, such as slang, as isolated language-specific memorizations or as unified, abstract concepts. We study this by probing the internal representations of Gemma-2-9B-IT using Sparse Autoencoders (SAEs) across three typologically diverse source languages: English, Hebrew, and Russian. To definitively isolate pragmatic register processing from trivial lexical sensitivity, we introduce a novel dataset in which every target term is polysemous, appearing in both literal and informal contexts. We find that while much of the informal-register signal is distributed across language-specific features, a small but highly robust cross-linguistic core consistently emerges. This shared core forms a geometrically coherent ``informal register subspace'' that sharpens in the model's deeper layers. Crucially, these shared representations are not merely correlational: activation steering with these features causally shifts output formality across all source languages and transfers zero-shot to six unseen languages spanning diverse language families and scripts. Together, these results provide the first mechanistic evidence that multilingual LLMs internalize informal register not just as surface-level heuristics, but as a portable, language-agnostic pragmatic abstraction.
- Abstract(参考訳): 多言語言語モデルは、事実的および構文的知識を言語間で伝達することに成功しているが、スラングのような文化固有の実用的レジスタを独立した言語固有の記憶として処理するか、あるいは統一された抽象概念として処理するかは定かではない。
Sparse Autoencoders (SAEs) を用いたGemma-2-9B-ITの内部表現を, 英語, ヘブライ語, ロシア語の3言語で検討した。
現実的なレジスタ処理を自明な語彙感から断定的に分離するために,各目的語が多義語であり,リテラルと非公式の両方の文脈に現れる新しいデータセットを提案する。
非公式登録信号の多くは言語固有の特徴に分散しているが、小さなが非常に堅牢な言語間コアは一貫して出現する。
この共有コアは、幾何学的にコヒーレントな ` `informal register subspace''' を形成し、モデルのより深い層を鋭くする。
アクティベーションのステアリングは、すべてのソース言語で出力の形式を因果的にシフトさせ、さまざまな言語ファミリーとスクリプトにまたがる6つの目に見えない言語にゼロショットを転送する。
これらの結果は、多言語LLMが、表面レベルのヒューリスティックとしてだけでなく、ポータブルで言語に依存しない実用的な抽象概念として、非公式なレジスタを内部化する最初の機械的証拠となる。
関連論文リスト
- What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか?
Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文 参考訳(メタデータ) (2025-01-10T21:18:21Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。