論文の概要: How Far Do Auto-Interpretation Labels Generalize: A Controlled Study Across Languages, Scripts, and Rewordings
- arxiv url: http://arxiv.org/abs/2606.00356v2
- Date: Wed, 03 Jun 2026 03:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.5745
- Title: How Far Do Auto-Interpretation Labels Generalize: A Controlled Study Across Languages, Scripts, and Rewordings
- Title(参考訳): 自動解釈ラベルがいかに一般化するか:言語、スクリプト、言い換えに関する制御された研究
- Authors: Sripad Karne,
- Abstract要約: 我々は、異なる言語、スクリプト、および単語で同じコンテンツによって起動されるSAE機能セットが、相当に重複していることを示す。
次に、自動解釈ラベルがペースを保っているかどうかをテストします。
これらの結果は、自動解釈ラベルは、概念そのものではなく、よく表現された入力に特徴の振舞いを反映する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoder (SAE) features are increasingly used to interpret language models, with auto-generated natural-language labels serving as the primary interface for understanding what each feature represents. We ask whether these labels generalize: does a feature labeled for a concept actually track that concept across languages and scripts? Using Serbian digraphia as a controlled testbed--the same language written in both Latin and Cyrillic via deterministic transliteration--we first find that SAE feature sets activated by the same content in different languages, scripts, and wordings share substantial overlap (mean Jaccard 0.39 vs. 0.13 random baseline, peaking at 0.57), suggesting genuine cross-lingual semantic features. We then test whether auto-interpretation labels keep pace. They often do not: features whose labels describe semantic content miss the same meaning in Serbian up to 4x more often thanwithin English, and miss Serbian Cyrillic more than Serbian Latin--two scripts that are deterministic transliterations of each other--suggesting the failures align with how well each form is represented in training. The gap grows with network depth, yet the labels give no indication that they fail. These results suggest that auto-interpretation labels may reflect a feature's behavior on well-represented inputs rather than the concept itself.
- Abstract(参考訳): スパースオートエンコーダ(SAE)機能は言語モデルの解釈にますます使われており、それぞれの特徴が何を表現しているかを理解するための主要なインターフェースとして、自動生成の自然言語ラベルが使用される。
概念としてラベル付けされた機能は、言語やスクリプトでその概念を実際に追跡していますか?
セルビア語のDigraphiaを制御されたテストベッドとして使う ― 決定論的翻訳を通じてラテン語とキリル語の両方で書かれた同じ言語-- まず、異なる言語、スクリプト、単語で同じ内容によって活性化されるSAE特徴集合が相当に重複している(ジャカード0.39対0.13ランダムベースライン、ピークは0.57)ことを発見し、真に言語間の意味的特徴を示唆している。
次に、自動解釈ラベルがペースを保っているかどうかをテストする。
セルビア語で意味のある内容を記述する特徴は、英語の4倍の頻度でセルビア語で同じ意味を欠いているが、セルビア語のキリル文字はセルビア語のラテン文字よりも少ない。
ギャップはネットワークの深さとともに拡大しますが、ラベルは失敗を示すものではありません。
これらの結果は、自動解釈ラベルは、概念そのものではなく、よく表現された入力に特徴の振舞いを反映する可能性があることを示唆している。
関連論文リスト
- A Universal Vibe? Finding and Controlling Language-Agnostic Informal Register with SAEs [0.858070544154173]
多言語言語モデルは、スラングのような文化固有の実用的なレジスタを、独立した言語固有の記憶として、あるいは統一された抽象概念として処理するかを検討する。
目的語はすべて多義語であり、リテラルと非公式の両方の文脈に現れる新しいデータセットを提案する。
非公式登録信号の多くは言語固有の特徴に分散しているが、小さなが非常に堅牢な言語間コアは一貫して出現する。
論文 参考訳(メタデータ) (2026-03-27T09:58:31Z) - One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations [0.0]
Sparse Autoencoders (SAEs) が学習した特徴が抽象的な意味を表すのか、それともテキストの書き方と結びついているのかを検討する。
異なるセルビア文字で同一の文が高度に重なり合う特徴を活性化し、ランダムなベースラインをはるかに超えていることがわかった。
この結果から,SAE機能は表面トークン化以上の抽象レベルでセマンティクスをキャプチャできる可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-09T19:31:20Z) - Label Forensics: Interpreting Hard Labels in Black-Box Text Classifier [27.11428257480993]
ラベルの意味を再構築するブラックボックスフレームワークであるラベル法医学を紹介する。
複数のブラックボックス分類器の実験では、平均的なラベルの一貫性は約92.24%に達する。
論文 参考訳(メタデータ) (2025-12-01T10:39:51Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Statistical and Neural Methods for Cross-lingual Entity Label Mapping in
Knowledge Graphs [4.466084612775998]
ウィキデータから抽出した言語間エンティティラベルを10言語でアライメントするための単語と文のアライメント手法の適用について検討する。
この結果から,Wikidata の主要なラベル間のマッピングは,採用手法によって大幅に改善(F1スコアの20ドルポイントまで)されていることが示唆された。
論文 参考訳(メタデータ) (2022-06-17T11:57:08Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。