論文の概要: Toy Models of Superposition
- arxiv url: http://arxiv.org/abs/2209.10652v1
- Date: Wed, 21 Sep 2022 20:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:52:09.450695
- Title: Toy Models of Superposition
- Title(参考訳): 重ね合わせの玩具モデル
- Authors: Nelson Elhage, Tristan Hume, Catherine Olsson, Nicholas Schiefer, Tom
Henighan, Shauna Kravec, Zac Hatfield-Dodds, Robert Lasenby, Dawn Drain,
Carol Chen, Roger Grosse, Sam McCandlish, Jared Kaplan, Dario Amodei, Martin
Wattenberg, Christopher Olah
- Abstract要約: 本稿では,多意味性を完全に理解可能な玩具モデルを提案する。
位相変化の存在、一様ポリトープの幾何学への驚くべき関連、および敵の例へのリンクの証拠を実証する。
- 参考スコア(独自算出の注目度): 6.587438766938805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often pack many unrelated concepts into a single neuron - a
puzzling phenomenon known as 'polysemanticity' which makes interpretability
much more challenging. This paper provides a toy model where polysemanticity
can be fully understood, arising as a result of models storing additional
sparse features in "superposition." We demonstrate the existence of a phase
change, a surprising connection to the geometry of uniform polytopes, and
evidence of a link to adversarial examples. We also discuss potential
implications for mechanistic interpretability.
- Abstract(参考訳): ニューラルネットワークは、しばしば多くの無関係な概念を単一のニューロンに詰め込む。
本稿では,余分な特徴を「重畳」に蓄積したモデルにより,多意味性を完全に理解できる玩具モデルを提案する。
位相変化の存在、一様ポリトープの幾何学への驚くべき関連、および敵の例へのリンクの証拠を実証する。
また,機械解釈の可能性についても考察する。
関連論文リスト
- Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Neural Message Passing Induced by Energy-Constrained Diffusion [79.9193447649011]
本稿では,MPNNのメカニズムを理解するための原理的解釈可能なフレームワークとして,エネルギー制約付き拡散モデルを提案する。
データ構造が(グラフとして)観察されたり、部分的に観察されたり、完全に観察されなかったりした場合に、新しいモデルが有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2024-09-13T17:54:41Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - What Causes Polysemanticity? An Alternative Origin Story of Mixed
Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。
データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-05T19:29:54Z) - Wave-packet and entanglement dynamics in a non-Hermitian many-body
system [0.0]
いわゆる波多野-ネルソン型の非エルミートハミルトニアンによって記述される一次元量子系について研究する。
障害や粒子間相互作用の影響は、特に共存する場合には、あまり理解されないかもしれない。
論文 参考訳(メタデータ) (2022-12-02T06:47:18Z) - Polysemanticity and Capacity in Neural Networks [1.4174475093445233]
ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
論文 参考訳(メタデータ) (2022-10-04T20:28:43Z) - Tensor-networks for High-order Polynomial Approximation: A Many-body
Physics Perspective [8.553988557950351]
我々は多体物理学の観点から高次近似の問題を解析する。
記述型モデルのキャパシティキャプチャとタスク複雑性における絡み合いエントロピーのパワーを実証する。
論文 参考訳(メタデータ) (2022-04-16T08:11:36Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - Emergent entanglement structures and self-similarity in quantum spin
chains [0.0]
我々は,多体量子状態に対する実験的にアクセス可能なネットワーク表現を,その構成成分のすべての対間の絡み合いに基づいて導入する。
この表現のパワーを、パラダイム的スピンチェーンモデル、XXモデルに適用し、それが軽い新しい現象をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-14T12:13:29Z) - Variational Inference for Deep Probabilistic Canonical Correlation
Analysis [49.36636239154184]
線形多視点層と深層生成ネットワークを観測モデルとして構成した深部確率的多視点モデルを提案する。
潜在確率多視点層の後方分布を近似した効率的な変分推論法を開発した。
任意の数のビューを持つモデルへの一般化も提案されている。
論文 参考訳(メタデータ) (2020-03-09T17:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。