論文の概要: Structural Disentanglement in Bilinear MLPs via Architectural Inductive Bias
- arxiv url: http://arxiv.org/abs/2602.05635v1
- Date: Thu, 05 Feb 2026 13:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.938572
- Title: Structural Disentanglement in Bilinear MLPs via Architectural Inductive Bias
- Title(参考訳): 構造インダクティブバイアスによるバイリニアMLPの構造異方性
- Authors: Ojasva Nema, Kaustubh Sharma, Aditya Chauhan, Parikshit Pareek,
- Abstract要約: 我々は、モデルがトレーニング中に内部表現をどのように構成するかから失敗が発生すると主張している。
線形パラメータ化は勾配流条件下での非混合特性を有することを示す。
ポイントワイズ非線形ネットワークとは異なり、乗法的アーキテクチャは、基礎となる代数構造と整合した真の作用素を復元することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective unlearning and long-horizon extrapolation remain fragile in modern neural networks, even when tasks have underlying algebraic structure. In this work, we argue that these failures arise not solely from optimization or unlearning algorithms, but from how models structure their internal representations during training. We explore if having explicit multiplicative interactions as an architectural inductive bias helps in structural disentanglement, through Bilinear MLPs. We show analytically that bilinear parameterizations possess a `non-mixing' property under gradient flow conditions, where functional components separate into orthogonal subspace representations. This provides a mathematical foundation for surgical model modification. We validate this hypothesis through a series of controlled experiments spanning modular arithmetic, cyclic reasoning, Lie group dynamics, and targeted unlearning benchmarks. Unlike pointwise nonlinear networks, multiplicative architectures are able to recover true operators aligned with the underlying algebraic structure. Our results suggest that model editability and generalization are constrained by representational structure, and that architectural inductive bias plays a central role in enabling reliable unlearning.
- Abstract(参考訳): 選択的アンラーニングと長い水平外挿は、タスクが代数的構造の基礎を持っている場合でも、現代のニューラルネットワークでは脆弱である。
この研究では、これらの失敗は最適化や未学習のアルゴリズムだけでなく、トレーニング中にモデルが内部表現をどのように構成するかからも生じると論じる。
アーキテクチャ的帰納バイアスとして明示的な乗法的相互作用を持つことが、ビリニア MLP を通して構造的非絡み合いに寄与するかどうかを考察する。
線形パラメータ化は勾配流条件下での「非混合」特性を持ち、関数成分は直交部分空間表現に分離されることを示す。
これは外科的モデル修正のための数学的基礎を提供する。
我々はこの仮説を、モジュラー算術、巡回推論、リー群力学、対象未学習ベンチマークにまたがる一連の制御実験を通じて検証する。
ポイントワイズ非線形ネットワークとは異なり、乗法的アーキテクチャは、基礎となる代数構造と整合した真の作用素を復元することができる。
この結果から,モデル編集可能性と一般化は表現構造によって制約されていることが示唆された。
関連論文リスト
- Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - Cross-Model Semantics in Representation Learning [1.2064681974642195]
構造的正則性は、構造的変動の下でより安定な表現幾何学を誘導することを示す。
これは、ある種の帰納バイアスがモデル内の一般化をサポートするだけでなく、モデル間の学習された機能の相互運用性を向上させることを示唆している。
論文 参考訳(メタデータ) (2025-08-05T16:57:24Z) - Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures [0.0]
我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
論文 参考訳(メタデータ) (2025-01-06T11:14:18Z) - Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Convolutional Filtering and Neural Networks with Non Commutative
Algebras [153.20329791008095]
本研究では,非可換畳み込みニューラルネットワークの一般化について検討する。
非可換畳み込み構造は作用素空間上の変形に対して安定であることを示す。
論文 参考訳(メタデータ) (2021-08-23T04:22:58Z) - LieTransformer: Equivariant self-attention for Lie Groups [49.9625160479096]
群等価ニューラルネットワークは群不変ニューラルネットワークの構成要素として用いられる。
我々は、文学の範囲を、ディープラーニングモデルの顕著な構築ブロックとして現れつつある自己注意にまで広げる。
任意のリー群とその離散部分群に同値なリー自己結合層からなる構造であるリー変換器を提案する。
論文 参考訳(メタデータ) (2020-12-20T11:02:49Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。