論文の概要: Mechanistic Interpretability of Antibody Language Models Using SAEs
- arxiv url: http://arxiv.org/abs/2512.05794v1
- Date: Fri, 05 Dec 2025 15:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.077569
- Title: Mechanistic Interpretability of Antibody Language Models Using SAEs
- Title(参考訳): SAEを用いた抗体モデルの機械論的解釈可能性
- Authors: Rebonto Haque, Oliver M. Turnbull, Anisha Parsan, Nithin Parsan, John J. Yang, Charlotte M. Deane,
- Abstract要約: 我々は、大規模タンパク質言語モデルにおける学習概念の洞察を提供するために、パースオートエンコーダ(SAE)を採用している。
TopK SAEは生物学的に有意義な潜伏特性を明らかにすることができるが、高次概念相関は生成に対する因果制御を保証しない。
命令されたSAEは階層構造を課し、ステアブルな特徴を確実に識別するが、より複雑で解釈不能なアクティベーションパターンを犠牲にしている。
- 参考スコア(独自算出の注目度): 1.7218681244575125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a mechanistic interpretability technique that have been used to provide insight into learned concepts within large protein language models. Here, we employ TopK and Ordered SAEs to investigate an autoregressive antibody language model, p-IgGen, and steer its generation. We show that TopK SAEs can reveal biologically meaningful latent features, but high feature concept correlation does not guarantee causal control over generation. In contrast, Ordered SAEs impose an hierarchical structure that reliably identifies steerable features, but at the expense of more complex and less interpretable activation patterns. These findings advance the mechanistic interpretability of domain-specific protein language models and suggest that, while TopK SAEs are sufficient for mapping latent features to concepts, Ordered SAEs are preferable when precise generative steering is required.
- Abstract(参考訳): スパースオートエンコーダ(英: Sparse autoencoder、SAE)は、大きなタンパク質言語モデルにおける学習概念の洞察を提供するために用いられる機械的解釈可能性技術である。
ここでは,TopK と Ordered SAE を用いて自己回帰型抗体言語モデル,p-IgGen を解析し,その生成を操る。
以上の結果から,TopK SAEは生物学的に有意な潜伏特性を示すことができるが,高次概念相関は発生に対する因果制御を保証していない。
対照的に、秩序付きSAEは階層構造を課し、ステアブルな特徴を確実に識別するが、より複雑で解釈不能なアクティベーションパターンを犠牲にしている。
これらの知見は, ドメイン特異的なタンパク質言語モデルの機械論的解釈性を推し進め, TopK SAEsは潜伏した特徴を概念にマッピングするのに十分であるのに対し, Ordered SAEsは正確な生成的ステアリングが必要なときに好適であることが示唆された。
関連論文リスト
- Re-envisioning Euclid Galaxy Morphology: Identifying and Interpreting Features with Sparse Autoencoders [0.14323566945483496]
スパースオートエンコーダ(SAE)は、銀河形態学のための事前訓練されたニューラルネットワークから、候補単意味の特徴を効率的に識別することができる。
教師付き(Zoobot)モデルと自己監督型(MAE)モデルの両方を用いて,Euclid Q1画像上でこれを実証する。
論文 参考訳(メタデータ) (2025-10-27T18:28:56Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - TopK Language Models [23.574227495324568]
TopK LMは、モデルサイズ、計算効率、解釈可能性の間の良好なトレードオフを提供する。
これらの機能はTopK LMsを安定させ、言語モデルがどのように概念を学び、表現するかを理解するための信頼性の高いツールにする。
論文 参考訳(メタデータ) (2025-06-26T16:56:43Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Towards Interpretable Protein Structure Prediction with Sparse Autoencoders [0.0]
SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
論文 参考訳(メタデータ) (2025-03-11T17:57:29Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Can sparse autoencoders make sense of gene expression latent variable models? [0.0]
この研究は、複雑な、高次元の生物学的データへの埋め込みを分解するためのSAEの可能性を探るものである。
事前訓練された単一細胞モデルからの埋め込みへの応用は、SAEが重要な生物学的プロセスを見つけ、管理できることを示している。
scFeatureLensは、SAEの特徴と遺伝子セットから生物学的概念をリンクするための自動解釈可能性アプローチである。
論文 参考訳(メタデータ) (2024-10-15T10:16:01Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。