論文の概要: Can sparse autoencoders make sense of latent representations?
- arxiv url: http://arxiv.org/abs/2410.11468v1
- Date: Tue, 15 Oct 2024 10:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:33.218947
- Title: Can sparse autoencoders make sense of latent representations?
- Title(参考訳): スパースオートエンコーダは潜在表現を理解できるか?
- Authors: Viktoria Schuster,
- Abstract要約: スパースオートエンコーダ(SAE)は、近年、大きな言語モデルで解釈可能な潜在機能を明らかにするために使われている。
我々は、SAEが生物学的および他の科学領域における解釈可能性を高めるためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse autoencoders (SAEs) have lately been used to uncover interpretable latent features in large language models. Here, we explore their potential for decomposing latent representations in complex and high-dimensional biological data, where the underlying variables are often unknown. On simulated data we show that generative hidden variables can be captured in learned representations in the form of superpositions. The degree to which they are learned depends on the completeness of the representations. Superpositions, however, are not identifiable if these generative variables are unknown. SAEs can to some extent recover these variables, yielding interpretable features. Applied to single-cell multi-omics data, we show that an SAE can uncover key biological processes such as carbon dioxide transport and ion homeostasis, which are crucial for red blood cell differentiation and immune function. Our findings highlight how SAEs can be used in advancing interpretability in biological and other scientific domains.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、近年、大きな言語モデルで解釈可能な潜在機能を明らかにするために使われている。
ここでは、基礎となる変数がよく知られていない複雑な、高次元の生物学的データにおいて、潜在表現を分解する可能性を探る。
シミュレーションデータでは、生成的隠れ変数は、重ね合わせの形で学習された表現でキャプチャできることを示す。
それらが学べる程度は、表現の完全性に依存する。
しかし、これらの生成変数が未知であれば、重ね合わせは特定できない。
SAEはこれらの変数をある程度復元することができ、解釈可能な特徴をもたらす。
SAEは赤血球の分化と免疫機能に不可欠な二酸化炭素輸送やイオンホメオスタシスなどの重要な生物学的過程を明らかにすることができる。
本研究は,SAEが生物学的および他の科学領域の解釈可能性向上にどのように役立つかを明らかにするものである。
関連論文リスト
- Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction [3.2274401541163322]
本稿では,パスとヒストロジーパッチトークン間の相互作用をモデル化できるメモリ効率の良いマルチモーダルトランスを提案する。
提案モデルであるSURVPATHは,非モーダルベースラインとマルチモーダルベースラインの両方に対して評価した場合に,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-04-13T21:02:32Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - Learning Causal Representations of Single Cells via Sparse Mechanism
Shift Modeling [3.2435888122704037]
本稿では,各摂動を未知の,しかしスパースな,潜伏変数のサブセットを標的とした介入として扱う単一細胞遺伝子発現データの深部生成モデルを提案する。
これらの手法をシミュレーションした単一セルデータ上でベンチマークし、潜伏単位回復、因果的目標同定、領域外一般化における性能を評価する。
論文 参考訳(メタデータ) (2022-11-07T15:47:40Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification [4.992154875028543]
マルチオミクスデータの統合と解析により腫瘍の広い視野が得られ,臨床診断の精度が向上する。
SubOmiEmbedは、非常に小さなネットワークを持つベースラインであるOmiEmbedに匹敵する結果を生成する。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
論文 参考訳(メタデータ) (2022-02-03T16:39:09Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Encoding Domain Information with Sparse Priors for Inferring Explainable
Latent Variables [2.8935588665357077]
説明可能な因子の推論を促進するために,スパース先行の因子潜在変数モデルであるspex-LVMを提案する。
spex-LVMは、既存の生物医療経路の知識を利用して、潜在因子にアノテート属性を自動的に割り当てる。
シミュレーションおよび実シングルセルRNA-seqデータセットの評価は、本モデルが本質的に説明可能な方法で関連構造を頑健に識別することを示す。
論文 参考訳(メタデータ) (2021-07-08T10:19:32Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。