論文の概要: Analyzing (In)Abilities of SAEs via Formal Languages
- arxiv url: http://arxiv.org/abs/2410.11767v1
- Date: Tue, 15 Oct 2024 16:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:26.694321
- Title: Analyzing (In)Abilities of SAEs via Formal Languages
- Title(参考訳): 形式言語によるSAEの分析(In)
- Authors: Abhinav Menon, Manish Shrivastava, David Krueger, Ekdeep Singh Lubana,
- Abstract要約: 正規言語の合成テストベッド上でスパースオートエンコーダを訓練する。
パフォーマンスは、トレーニングパイプラインの帰納バイアスに敏感です。
我々は、因果関係がSAEトレーニングの中心的標的となる必要があると論じる。
- 参考スコア(独自算出の注目度): 14.71170261508271
- License:
- Abstract: Autoencoders have been used for finding interpretable and disentangled features underlying neural network representations in both image and text domains. While the efficacy and pitfalls of such methods are well-studied in vision, there is a lack of corresponding results, both qualitative and quantitative, for the text domain. We aim to address this gap by training sparse autoencoders (SAEs) on a synthetic testbed of formal languages. Specifically, we train SAEs on the hidden representations of models trained on formal languages (Dyck-2, Expr, and English PCFG) under a wide variety of hyperparameter settings, finding interpretable latents often emerge in the features learned by our SAEs. However, similar to vision, we find performance turns out to be highly sensitive to inductive biases of the training pipeline. Moreover, we show latents correlating to certain features of the input do not always induce a causal impact on model's computation. We thus argue that causality has to become a central target in SAE training: learning of causal features should be incentivized from the ground-up. Motivated by this, we propose and perform preliminary investigations for an approach that promotes learning of causally relevant features in our formal language setting.
- Abstract(参考訳): オートエンコーダは、画像ドメインとテキストドメインの両方において、ニューラルネットワーク表現の基礎となる解釈可能な、および非絡み合った特徴を見つけるために使用されている。
このような手法の有効性と落とし穴は視界においてよく研究されているが、テキスト領域に対して質的かつ定量的な結果が得られていない。
我々は,形式言語の合成テストベッド上で,スパースオートエンコーダ(SAE)を訓練することにより,このギャップに対処することを目指している。
具体的には,形式言語 (Dyck-2, Expr, English PCFG) で訓練されたモデルの隠れ表現に対して,多種多様なハイパーパラメータ設定でSAEを訓練する。
しかしながら、ビジョンと同様に、トレーニングパイプラインの帰納バイアスに対して、パフォーマンスが非常に敏感であることが分かりました。
さらに、入力の特定の特徴に関連する潜伏剤が、必ずしもモデル計算に因果的影響をもたらすとは限らないことを示す。
そこで我々は,因果関係がSAEトレーニングの中心的標的となる必要があると論じ,因果関係の学習は根本から動機づけるべきである。
そこで本稿では,形式言語設定における因果関係の特徴の学習を促進する手法について,予備的な検討と検討を行う。
関連論文リスト
- Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models [31.210790277136443]
環境誘導型ニューラルシンボリック自己学習フレームワークENVISIONSを提案する。
本研究の目的は,(1)記号データの不足,(2)記号言語処理におけるLLMの限られた習熟度という2つの課題を克服することである。
論文 参考訳(メタデータ) (2024-06-17T16:52:56Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - Assessing the Limits of the Distributional Hypothesis in Semantic
Spaces: Trait-based Relational Knowledge and the Impact of Co-occurrences [6.994580267603235]
この研究は、自然言語の有意義な表現を捉えるために、データに必要とされることの比較的無意味な経路に寄与する。
これは、英語とスペイン語のセマンティックスペースが特定の種類の関係知識をいかにうまく捉えているかを評価することを必要とする。
論文 参考訳(メタデータ) (2022-05-16T12:09:40Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Pragmatic competence of pre-trained language models through the lens of
discourse connectives [4.917317902787791]
事前学習型言語モデル(LM)がNLPを支配し続けているため、これらのモデルにおける言語機能の深さを理解することがますます重要である。
談話接続性を予測するために実用的手がかりを使用するモデルの能力をテストすることに注力する。
自然に発生するデータのコンテキストにおいて、モデルが結合性を合理的に予測するが、高レベルの実用的手がかりを分離するためにコンテキストを制御する場合、モデル感度ははるかに低い。
論文 参考訳(メタデータ) (2021-09-27T11:04:41Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。