論文の概要: Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment
- arxiv url: http://arxiv.org/abs/2502.03714v1
- Date: Thu, 06 Feb 2025 02:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:33.977011
- Title: Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment
- Title(参考訳): ユニバーサルスパースオートエンコーダ:解釈可能なクロスモデル概念アライメント
- Authors: Harrish Thasarathan, Julian Forsyth, Thomas Fel, Matthew Kowal, Konstantinos Derpanis,
- Abstract要約: ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。
USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
- 参考スコア(独自算出の注目度): 6.614005142754584
- License:
- Abstract: We present Universal Sparse Autoencoders (USAEs), a framework for uncovering and aligning interpretable concepts spanning multiple pretrained deep neural networks. Unlike existing concept-based interpretability methods, which focus on a single model, USAEs jointly learn a universal concept space that can reconstruct and interpret the internal activations of multiple models at once. Our core insight is to train a single, overcomplete sparse autoencoder (SAE) that ingests activations from any model and decodes them to approximate the activations of any other model under consideration. By optimizing a shared objective, the learned dictionary captures common factors of variation-concepts-across different tasks, architectures, and datasets. We show that USAEs discover semantically coherent and important universal concepts across vision models; ranging from low-level features (e.g., colors and textures) to higher-level structures (e.g., parts and objects). Overall, USAEs provide a powerful new method for interpretable cross-model analysis and offers novel applications, such as coordinated activation maximization, that open avenues for deeper insights in multi-model AI systems
- Abstract(参考訳): 複数の事前学習されたディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークであるユニバーサルスパースオートエンコーダ(USAEs)を提示する。
一つのモデルに焦点を当てた既存の概念ベースの解釈可能性法とは異なり、USAEは複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を共同で学習する。
我々の中核となる洞察は、任意のモデルからアクティベーションを取り込み、それらをデコードして、考慮中の他のモデルのアクティベーションを近似する単一のオーバーコンプリートスパースオートエンコーダ(SAE)を訓練することである。
共通の目的を最適化することにより、学習辞書は、さまざまなタスク、アーキテクチャ、データセット間の変動概念の一般的な要因をキャプチャする。
その結果、USAEは、低レベルの特徴(例えば、色やテクスチャ)から高レベルの構造(例えば、部品やオブジェクト)まで、視覚モデル全体で意味的に一貫性があり、重要な普遍概念を発見していることがわかった。
全体としてUSAEは、クロスモデル分析を解釈可能な強力な新しい方法を提供し、マルチモデルAIシステムにおける深い洞察を得るために開放された、コーディネートアクティベーション最大化のような新しい応用を提供する。
関連論文リスト
- From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Composition Vision-Language Understanding via Segment and Depth Anything Model [2.0836143651641033]
このライブラリは、DAM(Depth Anything Model)、SAM(Segment Anything Model)、GPT-4V(GPT-4V)の機能を相乗化する。
シンボリック・インスタンスレベルでのセグメンテーションと深度解析の融合により、我々のライブラリは言語モデルに対するニュアンスな入力を提供する。
本研究は,ニューラルシンボリック統合による視覚言語モデルの進展を示す。
論文 参考訳(メタデータ) (2024-06-07T16:28:06Z) - Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。
Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文 参考訳(メタデータ) (2024-01-08T21:19:30Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。