論文の概要: Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability
- arxiv url: http://arxiv.org/abs/2511.05541v1
- Date: Thu, 30 Oct 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.035364
- Title: Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability
- Title(参考訳): テンポラルスパースオートエンコーダ : 解釈可能性のための言語シークエンシャルな性質を活用する
- Authors: Usha Bhalla, Alex Oesterling, Claudio Mayrink Verdun, Himabindu Lakkaraju, Flavio P. Calmon,
- Abstract要約: モデルの内部表現と計算を人間が理解できる概念に変換することが、解釈可能性の重要な目標である。
スパースオートエンコーダのような最近の辞書学習手法は、人間の解釈可能な特徴を発見するための有望な経路を提供する。
しかし、彼らは「文の始めの「The」というフレーズ」のような浅い、トークン特有の、または騒々しい特徴に偏りを呈している。
- 参考スコア(独自算出の注目度): 31.30541946703775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating the internal representations and computations of models into concepts that humans can understand is a key goal of interpretability. While recent dictionary learning methods such as Sparse Autoencoders (SAEs) provide a promising route to discover human-interpretable features, they suffer from a variety of problems, including a systematic failure to capture the rich conceptual information that drives linguistic understanding. Instead, they exhibit a bias towards shallow, token-specific, or noisy features, such as "the phrase 'The' at the start of sentences". In this work, we propose that this is due to a fundamental issue with how dictionary learning methods for LLMs are trained. Language itself has a rich, well-studied structure spanning syntax, semantics, and pragmatics; however, current unsupervised methods largely ignore this linguistic knowledge, leading to poor feature discovery that favors superficial patterns over meaningful concepts. We focus on a simple but important aspect of language: semantic content has long-range dependencies and tends to be smooth over a sequence, whereas syntactic information is much more local. Building on this insight, we introduce Temporal Sparse Autoencoders (T-SAEs), which incorporate a novel contrastive loss encouraging consistent activations of high-level features over adjacent tokens. This simple yet powerful modification enables SAEs to disentangle semantic from syntactic features in a self-supervised manner. Across multiple datasets and models, T-SAEs recover smoother, more coherent semantic concepts without sacrificing reconstruction quality. Strikingly, they exhibit clear semantic structure despite being trained without explicit semantic signal, offering a new pathway for unsupervised interpretability in language models.
- Abstract(参考訳): モデルの内部表現と計算を人間が理解できる概念に変換することが、解釈可能性の重要な目標である。
Sparse Autoencoders (SAEs) のような最近の辞書学習手法は、人間の解釈可能な特徴を発見するための有望な経路を提供するが、言語理解を促進するリッチな概念情報を取得する体系的な失敗など、様々な問題に悩まされている。
代わりに、彼らは「文の始めの「The」というフレーズ」のような浅い、トークン特有の、または騒々しい特徴に対する偏見を示す。
本研究は,LLMの辞書学習方法の学習方法に関する根本的な問題に起因することを示唆する。
言語そのものは、構文、意味論、プラグマティクスにまたがる豊かでよく研究された構造を持っているが、現在の教師なしの手法はこの言語的な知識をほとんど無視しており、意味のある概念よりも表面的なパターンを好む機能発見に繋がる。
セマンティックコンテンツは長い範囲の依存関係を持ち、シーケンス上でスムーズな傾向にあるが、構文情報はより局所的である。
この知見に基づいて,隣接するトークンに対する高次特徴の一貫した活性化を奨励する新しい対照的な損失を含むテンポラルスパースオートエンコーダ(T-SAE)を導入する。
このシンプルだが強力な修正により、SAEは自己教師された方法で構文的特徴から意味を解き放つことができる。
複数のデータセットとモデル全体で、T-SAEは再構築品質を犠牲にすることなく、よりスムーズで一貫性のあるセマンティックな概念を回復する。
厳密には、明示的な意味信号なしで訓練されているにもかかわらず、明確な意味構造を示し、言語モデルにおける教師なしの解釈可能性のための新しい経路を提供する。
関連論文リスト
- Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [32.83743219965261]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。