Fugu-MT 論文翻訳(概要): Sparse Autoencoder Features for Classifications and Transferability

論文の概要: Sparse Autoencoder Features for Classifications and Transferability

arxiv url: http://arxiv.org/abs/2502.11367v1
Date: Mon, 17 Feb 2025 02:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.028928
Title: Sparse Autoencoder Features for Classifications and Transferability
Title（参考訳）: 分類と転送性のためのスパースオートエンコーダの特徴
Authors: Jack Gallifant, Shan Chen, Kuleen Sasse, Hugo Aerts, Thomas Hartvigsen, Danielle S. Bitterman,
Abstract要約: 大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
参考スコア（独自算出の注目度）: 11.2185030332009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) provide potentials for uncovering structured, human-interpretable representations in Large Language Models (LLMs), making them a crucial tool for transparent and controllable AI systems. We systematically analyze SAE for interpretable feature extraction from LLMs in safety-critical classification tasks. Our framework evaluates (1) model-layer selection and scaling properties, (2) SAE architectural configurations, including width and pooling strategies, and (3) the effect of binarizing continuous SAE activations. SAE-derived features achieve macro F1 > 0.8, outperforming hidden-state and BoW baselines while demonstrating cross-model transfer from Gemma 2 2B to 9B-IT models. These features generalize in a zero-shot manner to cross-lingual toxicity detection and visual classification tasks. Our analysis highlights the significant impact of pooling strategies and binarization thresholds, showing that binarization offers an efficient alternative to traditional feature selection while maintaining or improving performance. These findings establish new best practices for SAE-based interpretability and enable scalable, transparent deployment of LLMs in real-world applications. Full repo: https://github.com/shan23chen/MOSAIC.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)における構造化された人間解釈可能な表現を明らかにする可能性を提供し、透明性と制御可能なAIシステムにとって重要なツールである。安全クリティカルな分類タスクにおけるLLMの特徴抽出のためのSAEを体系的に解析する。本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。 SAE 由来の機能はマクロ F1 > 0.8 となり、隠れ状態と BoW のベースラインを上回り、Gemma 2 2B から 9B-IT モデルへのクロスモデル移行を示す。これらの特徴は、言語間毒性の検出と視覚的分類タスクにゼロショットで一般化される。我々の分析では、プール戦略とバイナライゼーションしきい値による大きな影響を強調し、バイナライゼーションがパフォーマンスを維持したり改善したりしながら、従来の特徴選択に代わる効果的な代替手段を提供することを示した。これらの知見は、SAEベースの解釈可能性のための新しいベストプラクティスを確立し、現実のアプリケーションにスケーラブルで透過的なLLMのデプロイを可能にする。完全なリポジトリ:https://github.com/shan23chen/MOSAIC

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文参考訳（メタデータ） (2025-04-03T17:58:35Z)
Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models [1.8032335403003321]
視覚言語モデルを用いた意味論的解釈型強化学習(SILVA)について紹介する。 SILVAは、事前学習された視覚言語モデル(VLM)を意味的特徴抽出やポリシー最適化のためのツリーベースモデルに活用する自動化フレームワークである。
論文参考訳（メタデータ） (2025-03-20T21:53:19Z)
Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。 MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文参考訳（メタデータ） (2025-02-27T22:39:13Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-10-24T08:20:10Z)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。 2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。 3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
Rethinking Pre-Trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification [2.6703221234079946]
複数インスタンス学習(MIL)は、パッチレベルのアノテーションを必要とせずに、ギガピクセル全体のスライド画像(WSI)分類に好まれる方法となっている。本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を体系的に評価する。
論文参考訳（メタデータ） (2024-08-02T10:34:23Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文参考訳（メタデータ） (2023-12-31T09:24:21Z)
Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。 In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。 SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文参考訳（メタデータ） (2023-07-05T23:26:01Z)
A Dual-branch Self-supervised Representation Learning Framework for Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文参考訳（メタデータ） (2023-03-20T10:57:28Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文参考訳（メタデータ） (2022-10-20T17:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。