論文の概要: Capability Localization: Capabilities Can be Localized rather than Individual Knowledge
- arxiv url: http://arxiv.org/abs/2502.20992v1
- Date: Fri, 28 Feb 2025 12:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:28.260297
- Title: Capability Localization: Capabilities Can be Localized rather than Individual Knowledge
- Title(参考訳): 能力のローカライゼーション:個々の知識よりも能力のローカライズが可能
- Authors: Xiusheng Huang, Jiaxiang Liu, Yequan Wang, Jun Zhao, Kang Liu,
- Abstract要約: 大規模言語モデルは自然言語処理に関連するタスクにおいて優れたパフォーマンスを実現している。
従来の研究では、個々の知識は局所的なパラメータに格納され、個々の知識の保存形態は分散パラメータ、パラメータ層、パラメータチェーンであると考えられていた。
本稿では、共通性ニューロンの同定に成功し、GSM8Kデータセット上でのニューロン重複率96.42%を達成するCNL法を提案する。
- 参考スコア(独自算出の注目度): 22.63726568778859
- License:
- Abstract: Large scale language models have achieved superior performance in tasks related to natural language processing, however, it is still unclear how model parameters affect performance improvement. Previous studies assumed that individual knowledge is stored in local parameters, and the storage form of individual knowledge is dispersed parameters, parameter layers, or parameter chains, which are not unified. We found through fidelity and reliability evaluation experiments that individual knowledge cannot be localized. Afterwards, we constructed a dataset for decoupling experiments and discovered the potential for localizing data commonalities. To further reveal this phenomenon, this paper proposes a Commonality Neuron Localization (CNL) method, which successfully locates commonality neurons and achieves a neuron overlap rate of 96.42% on the GSM8K dataset. Finally, we have demonstrated through cross data experiments that commonality neurons are a collection of capability neurons that possess the capability to enhance performance. Our code is available at https://github.com/nlpkeg/Capability-Neuron-Localization.
- Abstract(参考訳): 大規模言語モデルは自然言語処理に関連するタスクにおいて優れた性能を達成しているが、モデルパラメータがパフォーマンス改善にどのように影響するかはいまだ不明である。
従来の研究では、個々の知識は局所的なパラメータに格納され、個々の知識の保存形態は分散パラメータ、パラメータ層、あるいはパラメータ連鎖であり、統一されていないと推定されていた。
個々の知識を局所化できない忠実度評価実験と信頼性評価実験によって得られた。
その後、実験を分離するためのデータセットを構築し、データの共通点をローカライズする可能性を発見した。
そこで本研究では,共通ニューロンの同定に成功し,GSM8Kデータセット上でのニューロン重複率96.42%を達成できるCNL法を提案する。
最後に、我々はクロスデータ実験を通して、共通性ニューロンは性能を高める能力を持つ機能ニューロンの集合であることを示した。
私たちのコードはhttps://github.com/nlpkeg/Capability-Neuron-Localizationで利用可能です。
関連論文リスト
- Knowledge Editing for Large Language Model with Knowledge Neuronal Ensemble [13.608354678065222]
我々は知識神経アンサンブル(KNE)と呼ばれる新しい知識編集手法を提案する。
知識ニューロンアンサンブルは、特定の知識をコードするニューロンのグループを表しており、頻繁なパラメータ修正の問題を軽減する。
3つの広く使われている知識編集データセットの実験結果から,KNE法は知識編集の精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-12-30T00:58:00Z) - Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
本研究はまず,ニューロン活性化とモデル出力の数値的関係について検討する。
ニューロン実験勾配(NEG)の正確かつ効率的な計算法であるNeurGradを導入する。
論文 参考訳(メタデータ) (2024-12-24T00:01:24Z) - What should a neuron aim for? Designing local objective functions based on information theory [41.39714023784306]
バイオインスパイアされた局所学習目標を設計することで、自己組織化された人工ニューロンをどのように達成できるかを示す。
これらの目標は、情報理論の最近の拡張である部分情報分解を用いてパラメータ化される。
我々の研究は、地域学習戦略の原則的情報理論の基礎を推進している。
論文 参考訳(メタデータ) (2024-12-03T14:45:46Z) - Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts [14.69046890281591]
本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。
検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
論文 参考訳(メタデータ) (2024-06-16T09:36:32Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Benchmarking Compositionality with Formal Languages [64.09083307778951]
我々は,NLPにおける大規模ニューラルモデルが,データから学習しながら,原始概念をより大規模な新しい組み合わせに組み込むことができるかどうかを検討する。
多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。
モデルは完全に関係を学習するか全く学習しないかが分かる。鍵となるのはトランジッションカバレッジであり、トランジッション毎に400の例でソフトな学習可能性制限を設定する。
論文 参考訳(メタデータ) (2022-08-17T10:03:18Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Learning Realistic Patterns from Unrealistic Stimuli: Generalization and
Data Anonymization [0.5091527753265949]
本研究は、匿名化されたデータ合成において、サードパーティがそのようなプライベートデータから恩恵を受けられるような、シンプルかつ非従来的なアプローチについて検討する。
オープンおよび大規模臨床研究の睡眠モニタリングデータを用いて,(1)エンドユーザーが睡眠時無呼吸検出のためにカスタマイズされた分類モデルを作成し,有効活用できるかどうかを評価し,(2)研究参加者の身元を保護した。
論文 参考訳(メタデータ) (2020-09-21T16:31:21Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。