論文の概要: Disentangling concept semantics via multilingual averaging in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.14275v1
- Date: Tue, 19 Aug 2025 21:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.273671
- Title: Disentangling concept semantics via multilingual averaging in Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダにおける多言語平均化によるディエンタングリング概念意味論
- Authors: Cliff O'Reilly, Ernesto Jimenez-Ruiz, Tillman Weyde,
- Abstract要約: 本稿では,スパースオートエンコーダを用いた概念アクティベーションの平均化により,Large Langue Modelsの概念セマンティクスを分離する手法を提案する。
Sparse Autoencoders のオープンソース Gemma Scope スイートを用いて,各クラスおよび言語バージョンに対する概念アクティベーションを得る。
以上の結果から,概念平均は単一言語自体と比較してクラス間の真の関係に一致することが示唆された。
- 参考スコア(独自算出の注目度): 3.1542695050861544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connecting LLMs with formal knowledge representation and reasoning is a promising approach to address their shortcomings. Embeddings and sparse autoencoders are widely used to represent textual content, but the semantics are entangled with syntactic and language-specific information. We propose a method that isolates concept semantics in Large Langue Models by averaging concept activations derived via Sparse Autoencoders. We create English text representations from OWL ontology classes, translate the English into French and Chinese and then pass these texts as prompts to the Gemma 2B LLM. Using the open source Gemma Scope suite of Sparse Autoencoders, we obtain concept activations for each class and language version. We average the different language activations to derive a conceptual average. We then correlate the conceptual averages with a ground truth mapping between ontology classes. Our results give a strong indication that the conceptual average aligns to the true relationship between classes when compared with a single language by itself. The result hints at a new technique which enables mechanistic interpretation of internal network states with higher accuracy.
- Abstract(参考訳): LLMを形式的な知識表現と推論で結びつけることは、その欠点に対処するための有望なアプローチである。
埋め込みやスパースオートエンコーダはテキストコンテンツを表現するために広く使われているが、セマンティクスは構文情報や言語固有の情報と絡み合っている。
本稿では,スパースオートエンコーダを用いた概念アクティベーションの平均化により,Large Langue Modelsの概念セマンティクスを分離する手法を提案する。
OWLオントロジークラスから英語のテキスト表現を作成し、英語をフランス語と中国語に翻訳し、これらのテキストをGemma 2B LLMへのプロンプトとして渡す。
Sparse Autoencoders のオープンソース Gemma Scope スイートを用いて,各クラスおよび言語バージョンに対する概念アクティベーションを得る。
異なる言語のアクティベーションを平均化し、概念的な平均を導き出す。
次に、概念平均をオントロジークラス間の基底真理写像と相関付ける。
以上の結果から,概念平均は単一言語自体と比較してクラス間の真の関係に一致することが示唆された。
その結果,より高精度な内部ネットワーク状態の機械的解釈を可能にする新しい手法が示唆された。
関連論文リスト
- Multi-Sense Embeddings for Language Models and Knowledge Distillation [17.559171180573664]
変換器ベースの大規模言語モデル(LLM)は、周囲のコンテキストに応じて同じトークンに対して異なる表現を生成するコンテキスト埋め込みに依存している。
本稿では,各トークンのドロップイン置換としてマルチセンス埋め込みを提案し,その使用範囲を言語で把握する。
論文 参考訳(メタデータ) (2025-04-08T13:36:36Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。