Fugu-MT 論文翻訳(概要): Evolution of SAE Features Across Layers in LLMs

論文の概要: Evolution of SAE Features Across Layers in LLMs

arxiv url: http://arxiv.org/abs/2410.08869v2
Date: Sun, 17 Nov 2024 22:45:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.2951
Title: Evolution of SAE Features Across Layers in LLMs
Title（参考訳）: LLMにおけるSAE特性の進化
Authors: Daniel Balcells, Benjamin Lerner, Michael Oesterle, Ediz Ucar, Stefan Heimersheim,
Abstract要約: 隣接層における特徴間の統計的関係を解析し, 前方通過による特徴の進化を理解する。私たちは、機能とその最もよく似た隣人のためのグラフ視覚化インターフェイスを提供し、レイヤ間で関連する機能のコミュニティを構築します。
参考スコア（独自算出の注目度）: 1.5728609542259502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse Autoencoders for transformer-based language models are typically defined independently per layer. In this work we analyze statistical relationships between features in adjacent layers to understand how features evolve through a forward pass. We provide a graph visualization interface for features and their most similar next-layer neighbors (https://stefanhex.com/spar-2024/feature-browser/), and build communities of related features across layers. We find that a considerable amount of features are passed through from a previous layer, some features can be expressed as quasi-boolean combinations of previous features, and some features become more specialized in later layers.
Abstract（参考訳）: トランスフォーマーベースの言語モデルのためのスパースオートエンコーダは通常、レイヤ毎に独立して定義される。この研究では、隣接層における特徴間の統計的関係を分析し、前方通過を通して機能がどのように進化するかを理解する。私たちは、機能とその最もよく似た隣人(https://stefanhex.com/spar-2024/feature-browser/)のためのグラフ視覚化インターフェイスを提供し、レイヤ間で関連する機能のコミュニティを構築します。いくつかの特徴は、以前の特徴の準ブール結合として表すことができ、いくつかの特徴は、後続のレイヤーでより特殊化される。

関連論文リスト

Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Multi-Culture Sign Language Recognition [0.5497663232622964]
手話に基づく手話認識は、難聴者と非難聴者の間の重要なコミュニケーションブリッジとして機能する。既存のSLRシステムは、その文化的SLに対して良好に機能するが、多文化手話言語(McSL)と競合する可能性がある
論文参考訳（メタデータ） (2025-03-21T04:57:18Z)
The Representation and Recall of Interwoven Structured Knowledge in LLMs: A Geometric and Layered Analysis [0.0]
大規模言語モデル(LLM)はトランスフォーマー層にまたがる多関連属性を表現し、リコールする。中間層は、重なり合う空間における関連属性を重畳することによって、事実知識を符号化する。後の層は言語パターンを洗練し属性表現を段階的に分離します
論文参考訳（メタデータ） (2025-02-15T18:08:51Z)
Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。 SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T12:12:06Z)
Multi-field Visualization: Trait design and trait-induced merge trees [2.862576303934634]
特徴量集合 (FLS) は属性空間で定義された特性を用いて特徴量を特定することで多分野データの解析において有意なポテンシャルを示した。本研究では,FLSの実用化における重要な課題として,特徴設計とレンダリング機能の選択について論じる。本稿では,特徴をより単純なコンポーネントに分解し,プロセスをより直感的で効率的なものにする。
論文参考訳（メタデータ） (2025-01-08T10:13:32Z)
Mechanistic Permutability: Match Features Across Layers [4.2056926734482065]
SAE Matchは、ニューラルネットワークの異なる層にまたがってSAE機能を整列するための、新しいデータフリーな手法である。我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
論文参考訳（メタデータ） (2024-10-10T06:55:38Z)
A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。 GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文参考訳（メタデータ） (2024-06-19T22:30:08Z)
The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文参考訳（メタデータ） (2023-02-01T07:50:26Z)
WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文参考訳（メタデータ） (2023-01-03T20:57:22Z)
Improving Semantic Segmentation in Transformers using Hierarchical Inter-Level Attention [68.7861229363712]
Hierarchical Inter-Level Attention (HILA)は、異なるレベルの機能間のボトムアップとトップダウン更新をキャプチャするアテンションベースの手法である。 HILAは階層型ヴィジュアルトランスフォーマーアーキテクチャを拡張し、上位と下位の機能間の局所的な接続をバックボーンエンコーダに追加する。より少ないパラメータとFLOPSを用いたセマンティックセグメンテーションでは,精度が顕著に向上した。
論文参考訳（メタデータ） (2022-07-05T15:47:31Z)
Simplifying approach to Node Classification in Graph Neural Networks [7.057970273958933]
グラフニューラルネットワークのノード特徴集約ステップと深さを分離し、異なる集約特徴が予測性能にどのように寄与するかを経験的に分析する。集約ステップによって生成された全ての機能が有用であるとは限らないことを示し、これらの少ない情報的特徴を用いることは、GNNモデルの性能に有害であることを示す。提案モデルでは,提案モデルが最先端のGNNモデルと同等あるいはそれ以上の精度を達成可能であることを実証的に示す。
論文参考訳（メタデータ） (2021-11-12T14:53:22Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
Sequential Hierarchical Learning with Distribution Transformation for Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文参考訳（メタデータ） (2020-07-19T01:35:53Z)
GSTO: Gated Scale-Transfer Operation for Multi-Scale Feature Learning in Pixel Labeling [92.90448357454274]
本稿では,空間教師付き機能を他のスケールに適切に移行するためのGated Scale-Transfer Operation (GSTO)を提案する。 GSTOをHRNetにプラグインすることで、ピクセルラベリングの強力なバックボーンが得られます。実験の結果,GSTOはマルチスケール機能アグリゲーションモジュールの性能を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2020-05-27T13:46:58Z)
Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。 CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文参考訳（メタデータ） (2020-05-19T01:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。