論文の概要: Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective
- arxiv url: http://arxiv.org/abs/2406.17969v2
- Date: Tue, 15 Oct 2024 22:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:54.744256
- Title: Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective
- Title(参考訳): モノセマンティズムの促進か抑制か : 特徴的デコレーションの観点からのモノセマンティリティを再考する
- Authors: Hanqi Yan, Yanzheng Xiang, Guangyi Chen, Yifei Wang, Lin Gui, Yulan He,
- Abstract要約: 単意味ニューロンは単一の概念と特定の概念に特化しており、ニューロンと概念の間に1対1の相関関係を形成する。
単調性探索の広範な研究にもかかわらず、単調性がモデル能力に有益か有害かは定かではない。
- 参考スコア(独自算出の注目度): 30.290777756014748
- License:
- Abstract: To better interpret the intrinsic mechanism of large language models (LLMs), recent studies focus on monosemanticity on its basic units. A monosemantic neuron is dedicated to a single and specific concept, which forms a one-to-one correlation between neurons and concepts. Despite extensive research in monosemanticity probing, it remains unclear whether monosemanticity is beneficial or harmful to model capacity. To explore this question, we revisit monosemanticity from the feature decorrelation perspective and advocate for its encouragement. We experimentally observe that the current conclusion by wang2024learning, which suggests that decreasing monosemanticity enhances model performance, does not hold when the model changes. Instead, we demonstrate that monosemanticity consistently exhibits a positive correlation with model capacity, in the preference alignment process. Consequently, we apply feature correlation as a proxy for monosemanticity and incorporate a feature decorrelation regularizer into the dynamic preference optimization process. The experiments show that our method not only enhances representation diversity and activation sparsity but also improves preference alignment performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の本質的なメカニズムをよりよく理解するために,近年の研究では,その基本単位に対する単意味性に着目している。
単意味ニューロンは単一の概念と特定の概念に特化しており、ニューロンと概念の間に1対1の相関関係を形成する。
単調性探索の広範な研究にもかかわらず、単調性がモデル能力に有益か有害かは定かではない。
この問題を探求するため,特徴デコレーションの観点から一律性を再考し,その奨励を提唱する。
モノセマンティリティの低下がモデル性能を向上させることを示唆するwang2024ラーニングによる現在の結論は、モデルが変化しても維持されないことを実験的に観察した。
その代わりに、選好アライメントプロセスにおいて、単意味性はモデルキャパシティと正の相関を示すことを示す。
したがって,特徴相関を単意味性のプロキシとして適用し,特徴デコリレーション正規化器を動的選好最適化プロセスに組み込む。
実験の結果,提案手法は表現の多様性やアクティベーションの幅を増大させるだけでなく,好みのアライメント性能も向上することがわかった。
関連論文リスト
- Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - MonoKAN: Certified Monotonic Kolmogorov-Arnold Network [48.623199394622546]
特定のアプリケーションでは、モデル予測は専門家が提案した要件と一致し、時には部分的な単調性制約によって例示されなければならない。
我々は,kanアーキテクチャに基づく新しいANNアーキテクチャMonoKANを導入し,解釈性を高めつつ,認証された部分的単調性を実現する。
実験の結果,MonoKANは解釈可能性を高めるだけでなく,ほとんどのベンチマークにおける予測性能も向上し,最先端のモノトニックアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-17T11:10:59Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Learning from Emergence: A Study on Proactively Inhibiting the Monosemantic Neurons of Artificial Neural Networks [10.390475063385756]
オンライン計算の効率性を保証するため,ニューロンのモノセマンティリティを測定するための新しい指標を提案する。
モノセマンティリティが異なるモデルスケールで性能変化をもたらすという予想を検証する。
論文 参考訳(メタデータ) (2023-12-17T14:42:46Z) - Curve Your Enthusiasm: Concurvity Regularization in Differentiable
Generalized Additive Models [5.519653885553456]
GAM(Generalized Additive Models)はその解釈可能性のために最近人気が回復した。
我々は,GAMの解釈可能性の低下がいかに深刻かを示す。
線形変換しない特徴変数の相互相関をペナルティ化した,概念的には単純だが効果的な正則化器を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:55:49Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - Decomposing Natural Logic Inferences in Neural NLI [9.606462437067984]
ニューラルNLIモデルは、単調性や概念包摂性といった、自然論理の中心となる重要な意味的特徴を捉えているかどうかを考察する。
ベンチマークで高いスコアを得る人気NLIモデルの表現において、モノトニック性情報は顕著に弱いことが判明した。
論文 参考訳(メタデータ) (2021-12-15T17:35:30Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。