論文の概要: One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations
- arxiv url: http://arxiv.org/abs/2603.08869v1
- Date: Mon, 09 Mar 2026 19:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.800339
- Title: One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations
- Title(参考訳): 1つの言語、2つのスクリプト: LLM概念表現におけるスクリプト不変性の提案
- Authors: Sripad Karne,
- Abstract要約: Sparse Autoencoders (SAEs) が学習した特徴が抽象的な意味を表すのか、それともテキストの書き方と結びついているのかを検討する。
異なるセルビア文字で同一の文が高度に重なり合う特徴を活性化し、ランダムなベースラインをはるかに超えていることがわかった。
この結果から,SAE機能は表面トークン化以上の抽象レベルでセマンティクスをキャプチャできる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do the features learned by Sparse Autoencoders (SAEs) represent abstract meaning, or are they tied to how text is written? We investigate this question using Serbian digraphia as a controlled testbed: Serbian is written interchangeably in Latin and Cyrillic scripts with a near-perfect character mapping between them, enabling us to vary orthography while holding meaning exactly constant. Crucially, these scripts are tokenized completely differently, sharing no tokens whatsoever. Analyzing SAE feature activations across the Gemma model family (270M-27B parameters), we find that identical sentences in different Serbian scripts activate highly overlapping features, far exceeding random baselines. Strikingly, changing script causes less representational divergence than paraphrasing within the same script, suggesting SAE features prioritize meaning over orthographic form. Cross-script cross-paraphrase comparisons provide evidence against memorization, as these combinations rarely co-occur in training data yet still exhibit substantial feature overlap. This script invariance strengthens with model scale. Taken together, our findings suggest that SAE features can capture semantics at a level of abstraction above surface tokenization, and we propose Serbian digraphia as a general evaluation paradigm for probing the abstractness of learned representations.
- Abstract(参考訳): Sparse Autoencoders(SAEs)が学んだ機能は、抽象的な意味を表していますか?
セルビア語はラテン文字とキリル文字で交互に書かれており、その間にほぼ完全な文字マッピングが組み込まれており、正確な意味を保ちながら正書法を変更できる。
重要なのは、これらのスクリプトは完全に異なるトークン化され、トークンを共有しないことです。
Gemmaモデルファミリー(270M-27Bパラメータ)におけるSAE特徴アクティベーションを解析した結果,セルビアの異なるスクリプトの同一文が,ランダムなベースラインをはるかに超える高い重なり合う特徴を活性化していることが判明した。
厳密に言えば、スクリプトの変更は、同じスクリプト内のパラフレーズよりも表現のばらつきを少なくし、SAEの特徴が正書法よりも意味を優先していることを示唆している。
クロススクリプトのクロスフレーズ比較は、これらの組み合わせがトレーニングデータで共起することは稀だが、大きな重複を示すため、暗記の証拠となる。
このスクリプト不変性はモデルスケールによって強化される。
その結果,SAEの特徴は,表層トークン化以上の抽象レベルでセマンティクスを捉えることが可能であることを示唆し,学習表現の抽象性を検証するための一般的な評価パラダイムとしてセルビアの辞書を提案する。
関連論文リスト
- Empirical Evaluation of Progressive Coding for Sparse Autoencoders [45.94517951918044]
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。
SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
論文 参考訳(メタデータ) (2025-04-30T21:08:32Z) - Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。