論文の概要: Feature Integration Spaces: Joint Training Reveals Dual Encoding in Neural Network Representations
- arxiv url: http://arxiv.org/abs/2507.00269v1
- Date: Mon, 30 Jun 2025 21:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.936025
- Title: Feature Integration Spaces: Joint Training Reveals Dual Encoding in Neural Network Representations
- Title(参考訳): Feature Integration Spaces: ニューラルネットワーク表現におけるデュアルエンコーディングに関する共同トレーニング
- Authors: Omar Claflin,
- Abstract要約: ニューラルネットワークの解釈可能性に対する現在のオートエンコーダ(SAE)アプローチは、線形重ね合わせによって活性化がスパースで解釈可能な特徴に分解可能であることを前提としている。
ニューラルネットワークは2つの相補的な空間に情報をエンコードし,その情報を同じ基板に圧縮する。
共同トレーニングは41.3%の再建改善と51.6%のKL分岐誤差の低減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current sparse autoencoder (SAE) approaches to neural network interpretability assume that activations can be decomposed through linear superposition into sparse, interpretable features. Despite high reconstruction fidelity, SAEs consistently fail to eliminate polysemanticity and exhibit pathological behavioral errors. We propose that neural networks encode information in two complementary spaces compressed into the same substrate: feature identity and feature integration. To test this dual encoding hypothesis, we develop sequential and joint-training architectures to capture identity and integration patterns simultaneously. Joint training achieves 41.3% reconstruction improvement and 51.6% reduction in KL divergence errors. This architecture spontaneously develops bimodal feature organization: low squared norm features contributing to integration pathways and the rest contributing directly to the residual. Small nonlinear components (3% of parameters) achieve 16.5% standalone improvements, demonstrating parameter-efficient capture of computational relationships crucial for behavior. Additionally, intervention experiments using 2x2 factorial stimulus designs demonstrated that integration features exhibit selective sensitivity to experimental manipulations and produce systematic behavioral effects on model outputs, including significant interaction effects across semantic dimensions. This work provides systematic evidence for (1) dual encoding in neural representations, (2) meaningful nonlinearly encoded feature interactions, and (3) introduces an architectural paradigm shift from post-hoc feature analysis to integrated computational design, establishing foundations for next-generation SAEs.
- Abstract(参考訳): ニューラルネットワークの解釈可能性に対する現在のスパースオートエンコーダ(SAE)アプローチは、線形重ね合わせによって活性化をスパースで解釈可能な特徴に分解できると仮定している。
再建率が高いにもかかわらず、SAEは多意味性を排除し、病理学的行動の誤りを示すのに一貫して失敗する。
ニューラルネットワークは2つの相補的な空間に情報をエンコードし,その情報を同じ基板に圧縮する。
このデュアルエンコーディング仮説をテストするために,アイデンティティと統合パターンを同時に捉えるための逐次的および共同学習アーキテクチャを開発した。
共同トレーニングは41.3%の再建改善と51.6%のKL分岐誤差の低減を実現している。
このアーキテクチャは、双モーダルな特徴組織を自然に発達させる: 統合経路に寄与する低二乗ノルム特徴と、残余に直接寄与する残りの特徴である。
小さな非線形成分(パラメータの3%)は16.5%の独立的な改善を達成し、行動に不可欠な計算関係のパラメータ効率の獲得を実証している。
さらに、2x2因子刺激設計を用いた介入実験では、統合機能は実験的な操作に対して選択的な感度を示し、セマンティックディメンション間の重要な相互作用効果を含む、モデル出力に系統的な行動効果をもたらすことを示した。
本研究は,(1)ニューラル表現における二重符号化,(2)有意な非線形符号化された特徴相互作用,(3)ポストホック特徴解析から統合計算設計へのアーキテクチャパラダイムシフト,および次世代SAEの基礎を確立するための体系的証拠を提供する。
関連論文リスト
- Hybrid Two-Stage Reconstruction of Multiscale Subsurface Flow with Physics-informed Residual Connected Neural Operator [4.303037819686676]
本稿では,マルチスケール基底関数と物理誘導深層学習を用いてDarcyフロー問題を解決するハイブリッド2段階フレームワークを提案する。
このフレームワークは、基底関数の嵌合と圧力再構成の点で0.9以上のR2値を達成し、残差指標は10-4$のオーダーである。
論文 参考訳(メタデータ) (2025-01-22T23:28:03Z) - SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection [29.348921424716057]
本稿では、全体的注意モジュール、異種特徴コントラスト記述子、親和性重み付き特徴校正器からなる新規な異種特徴融合ブロックを提案する。
スケール内およびスケール内の両方のスキップ接続をデコーダアーキテクチャに組み込むと同時に、冗長な接続を排除し、精度と計算効率を向上させる。
セマンティック・トランジションと深度不整合領域に別々に焦点をあてる2つの誤認認識損失関数を導入し、モデルトレーニングにおけるより深い監督に寄与する。
論文 参考訳(メタデータ) (2024-02-29T07:20:02Z) - Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文 参考訳(メタデータ) (2024-02-04T14:12:51Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Improving Neural Additive Models with Bayesian Principles [54.29602161803093]
ニューラル加算モデル(NAM)は、個別の加算サブネットワークでキャリブレーションされた入力特徴を扱うことにより、ディープニューラルネットワークの透明性を高める。
本研究では,Laplace-approximated NAM (LA-NAMs) を開発した。
論文 参考訳(メタデータ) (2023-05-26T13:19:15Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。