論文の概要: Sparse Auto-Encoders and Holism about Large Language Models
- arxiv url: http://arxiv.org/abs/2603.26207v1
- Date: Fri, 27 Mar 2026 09:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.422509
- Title: Sparse Auto-Encoders and Holism about Large Language Models
- Title(参考訳): 大規模言語モデルに関するスパースオートエンコーダとホロリスム
- Authors: Jumbly Grindrod,
- Abstract要約: 私は、大規模言語モデルが全体主義の形式を具現化していると考える本来の理由を示します。
そして、このような機能の性質をより詳細に検討して、この課題に対処します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Does Large Language Model (LLM) technology suggest a meta-semantic picture i.e. a picture of how words and complex expressions come to have the meaning that they do? One modest approach explores the assumptions that seem to be built into how LLMs capture the meanings of linguistic expressions as a way of considering their plausibility (Grindrod, 2026a, 2026b). It has previously been argued that LLMs, in employing a form of distributional semantics, adopt a form of holism about meaning (Grindrod, 2023; Grindrod et al., forthcoming). However, recent work in mechanistic interpretability presents a challenge to these arguments. Specifically, the discovery of a vast array of interpretable latent features within the high dimensional spaces used by LLMs potentially challenges the holistic interpretation. In this paper, I will present the original reasons for thinking that LLMs embody a form of holism (section 1), before introducing recent work on features generated through sparse auto-encoders, and explaining how the discovery of such features suggests an alternative decompositional picture of meaning (section 2). I will then respond to this challenge by considering in greater detail the nature of such features (section 3). Finally, I will return to the holistic picture defended by Grindrod et al. and argue that the picture still stands provided that the features are countable (section 4).
- Abstract(参考訳): 大きな言語モデル(LLM)技術はメタセマンティックなイメージを示唆するだろうか。
1つの控えめなアプローチは、LLMが言語表現の意味をその妥当性を考える方法として捉えていると考えられる仮定を探求する(Grindrod, 2026a, 2026b)。
LLMは、分布意味論の形式を用いて、意味に関するホリスムの形式を採用する(Grindrod, 2023; Grindrod et al , upcoming)。
しかし、機械的解釈可能性に関する最近の研究は、これらの議論に挑戦している。
具体的には、LLMが使用する高次元空間内での解釈可能な潜在的特徴の広範囲の発見は、全体論的解釈に挑戦する可能性がある。
本稿では,LLMがホリズムの形式を具現化していると考える原原因について述べるとともに,スパースオートエンコーダによる特徴の最近の研究を紹介するとともに,そのような特徴の発見が意味の代替的な分解像をどう示すかを説明する(第2部)。
次に、このような機能の性質をより詳細に検討して、この課題に対処します(第3節)。
最後に、私はGrindrodらによって擁護された全体像に戻り、その特徴が可算であるならば、その図面は今も残っていると論じる(第4節)。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation [6.356639602091336]
解釈可能性(Interpretability)は、大規模言語モデルの信頼を促進する上で重要な課題である。
複数単語をモデル化してLLMを解釈・制御するためのフレーム表現仮説を提案する。
これらのツールをTop-k Concept-Guided Decodingで紹介する。
論文 参考訳(メタデータ) (2024-12-10T09:25:39Z) - Language Models as Semiotic Machines: Reconceptualizing AI Language Systems through Structuralist and Post-Structuralist Theories of Language [0.0]
本稿では,大規模言語モデル(LLM)を理解するための新しいフレームワークを提案する。
LLMは言語自体のモデルとして理解されるべきであり、ジャックの「書き方」(l'ecriture)の概念と一致している、と私は主張する。
私は、Sausure の Saussure 批判を LLM でモデル化されたオブジェクトとして位置づけ、機械の 'mind' を統計的近似として提供します。
論文 参考訳(メタデータ) (2024-10-16T21:45:54Z) - Fairness Definitions in Language Models Explained [2.443957114877221]
言語モデル (LM) は様々な自然言語処理 (NLP) タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、LMは性別や人種などのセンシティブな属性に関連する社会的バイアスを継承し、増幅することができる。
本稿では,LM に適用されるフェアネスの定義を明らかにするための体系的な調査を提案する。
論文 参考訳(メタデータ) (2024-07-26T01:21:25Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。