Fugu-MT 論文翻訳(概要): Sparsification and Reconstruction from the Perspective of Representation Geometry

論文の概要: Sparsification and Reconstruction from the Perspective of Representation Geometry

arxiv url: http://arxiv.org/abs/2505.22506v1
Date: Wed, 28 May 2025 15:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.711608
Title: Sparsification and Reconstruction from the Perspective of Representation Geometry
Title（参考訳）: 表現幾何学から見た空間化と再構成
Authors: Wenjie Sun, Bingzhe Wu, Zhile Yang, Chengke Wu,
Abstract要約: スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールである。本研究は,表現幾何学の観点から,空間の原理を説明する。具体的には、表現を理解し、表現の制約を取り入れることの必要性を強調している。
参考スコア（独自算出の注目度）: 10.834177456685538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) have emerged as a predominant tool in mechanistic interpretability, aiming to identify interpretable monosemantic features. However, how does sparse encoding organize the representations of activation vector from language models? What is the relationship between this organizational paradigm and feature disentanglement as well as reconstruction performance? To address these questions, we propose the SAEMA, which validates the stratified structure of the representation by observing the variability of the rank of the symmetric semipositive definite (SSPD) matrix corresponding to the modal tensor unfolded along the latent tensor with the level of noise added to the residual stream. To systematically investigate how sparse encoding alters representational structures, we define local and global representations, demonstrating that they amplify inter-feature distinctions by merging similar semantic features and introducing additional dimensionality. Furthermore, we intervene the global representation from an optimization perspective, proving a significant causal relationship between their separability and the reconstruction performance. This study explains the principles of sparsity from the perspective of representational geometry and demonstrates the impact of changes in representational structure on reconstruction performance. Particularly emphasizes the necessity of understanding representations and incorporating representational constraints, providing empirical references for developing new interpretable tools and improving SAEs. The code is available at \hyperlink{https://github.com/wenjie1835/SAERepGeo}{https://github.com/wenjie1835/SAERepGeo}.
Abstract（参考訳）: スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールであり、解釈可能な単意味的特徴を識別することを目的としている。しかし、スパースエンコーディングは言語モデルからアクティベーションベクトルの表現をどう整理するか? この組織パラダイムと機能障害と再建パフォーマンスの関係はどのようなものか? これらの問題に対処するため, SAEMA を提案し, SAEMA は, 残留ストリームに付加される雑音のレベルで, 潜時テンソルに沿って展開されるモーダルテンソルに対応する対称半正定値行列の階数の変動を観測することにより, 表現の成層構造を検証する。スパースエンコーディングが表現構造をどのように変化させるかを体系的に検討するため、局所的およびグローバルな表現を定義し、類似した意味的特徴をマージし、追加の次元性を導入することにより、特徴間の区別を増幅することを示した。さらに,グローバル表現を最適化の観点から介入し,その分離性と再構成性能との間に有意な因果関係を示す。本研究では,表現幾何学の観点から疎結合の原理を説明し,表現構造の変化が再構成性能に与える影響を実証する。特に、表現の理解と表現制約の導入の必要性を強調し、新しい解釈可能なツールを開発し、SAEを改善するための実証的な参照を提供する。コードは \hyperlink{https://github.com/wenjie1835/SAERepGeo}{https://github.com/wenjie1835/SAERepGeo} で公開されている。

関連論文リスト

Communication-Inspired Tokenization for Structured Image Representations [74.17163003465537]
COMiT(Communication inspired Tokenization)は、構造化された視覚トークンシーケンスを学習するためのフレームワークである。セマンティックアライメントが基盤となる一方で、解釈可能なオブジェクト中心のトークン構造を誘導するためには、注意的なシーケンシャルトークン化が重要であることを示す。
論文参考訳（メタデータ） (2026-02-24T09:53:50Z)
Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization [19.721857318111734]
指向性情報アロケーションを強制するための非対称階層的アンコリング(AHA)を提案する。我々は、脆弱な相互情報推定装置を、意味的漏洩を明示的に抑制するGRLベースの逆分離器に置き換える。 AHAは、クロスモーダル移動において対称基底線を一貫して上回る。
論文参考訳（メタデータ） (2026-02-03T14:14:03Z)
Learning Sparse Visual Representations via Spatial-Semantic Factorization [37.169502692169196]
自己教師付き学習(SSL)は、意味理解と画像再構成の根本的な対立に直面している。本稿では,視覚的特徴を意味概念とその空間分布の低ランクな製品に分解するフレームワークSTELLARを紹介する。この分解された形の下で16個のスパーストークンが同時に高品質な再構成(2.60 FID)をサポートし、高密度バックボーンのセマンティック性能(79.10% ImageNet精度)に適合することを示す。
論文参考訳（メタデータ） (2026-02-02T10:12:17Z)
From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit [16.996218963146788]
我々は,MP-SAEがエンコーダを一連の残差誘導ステップにアンロールすることで,階層的かつ非線形にアクセス可能な特徴を捉えることができることを示す。また、MP-SAEのシーケンシャルエンコーダ原理は、推論時に適応空間の利点を付加することを示した。
論文参考訳（メタデータ） (2025-06-03T17:24:55Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文参考訳（メタデータ） (2025-02-13T04:01:54Z)
Hierarchical Contextual Manifold Alignment for Structuring Latent Representations in Large Language Models [7.798982346197703]
潜在トークン表現の組織化は、言語モデルの安定性、一般化、文脈整合性を決定する上で重要な役割を果たす。コアモデル重みを変化させることなくトークン埋め込みに階層的アライメント手法を導入した。実験により, 希少なトークン検索, 逆方向, 長距離依存性追跡の改善が示された。
論文参考訳（メタデータ） (2025-02-06T04:01:27Z)
Fully Distributed, Flexible Compositional Visual Representations via Soft Tensor Products [13.306125510884563]
我々は,構成構造を本質的に分散した柔軟な方法でエンコードする表現形式であるSoft TPRを紹介する。我々は、ソフトTPRが従来の非絡み合いの代替よりも一貫して優れていることを示す。これらの知見は、構成構造を表現するための分散的で柔軟なアプローチの可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-12-05T23:47:58Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
R$^3$Net:Relation-embedded Representation Reconstruction Network for Change Captioning [30.962341503501964]
字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
論文参考訳（メタデータ） (2021-10-20T00:57:39Z)
Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文参考訳（メタデータ） (2021-09-15T02:26:07Z)
Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文参考訳（メタデータ） (2021-06-01T02:17:36Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。