論文の概要: The Rise of Parameter Specialization for Knowledge Storage in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17260v1
- Date: Thu, 22 May 2025 20:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.681934
- Title: The Rise of Parameter Specialization for Knowledge Storage in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識記憶のためのパラメータ特殊化の台頭
- Authors: Yihuai Hong, Yiran Zhao, Wei Tang, Yang Deng, Yu Rong, Wenxuan Zhang,
- Abstract要約: 言語モデルが高度化するにつれて、それらのパラメータは特殊化を増大させることを示す。
この特殊な知識分布が,これらのモデルにおける知識利用効率の向上に寄与することを実験的に検証した。
- 参考スコア(独自算出の注目度): 50.91855620712756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over time, a growing wave of large language models from various series has been introduced to the community. Researchers are striving to maximize the performance of language models with constrained parameter sizes. However, from a microscopic perspective, there has been limited research on how to better store knowledge in model parameters, particularly within MLPs, to enable more effective utilization of this knowledge by the model. In this work, we analyze twenty publicly available open-source large language models to investigate the relationship between their strong performance and the way knowledge is stored in their corresponding MLP parameters. Our findings reveal that as language models become more advanced and demonstrate stronger knowledge capabilities, their parameters exhibit increased specialization. Specifically, parameters in the MLPs tend to be more focused on encoding similar types of knowledge. We experimentally validate that this specialized distribution of knowledge contributes to improving the efficiency of knowledge utilization in these models. Furthermore, by conducting causal training experiments, we confirm that this specialized knowledge distribution plays a critical role in improving the model's efficiency in leveraging stored knowledge.
- Abstract(参考訳): 時間とともに、様々なシリーズの大規模言語モデルがコミュニティに導入されている。
研究者は、制約付きパラメータサイズで言語モデルの性能を最大化しようと努力している。
しかし、顕微鏡的な観点からは、モデルパラメータ、特にMLP内での知識の保存方法に関する限定的な研究が行われており、モデルによってこの知識をより効果的に活用することができる。
本研究では,20個のオープンソース大規模言語モデルを解析し,その性能と知識が対応するMLPパラメータに格納される方法との関係について検討する。
その結果,言語モデルがより進歩し,より強力な知識能力を示すようになると,それらのパラメータは特殊化を増大させることが明らかとなった。
特に、MLPのパラメータは、類似したタイプの知識を符号化することに集中する傾向にある。
この特殊な知識分布が,これらのモデルにおける知識利用効率の向上に寄与することを実験的に検証した。
さらに、因果学習実験を行うことで、この特殊な知識分布が、記憶された知識を活用する際のモデルの効率向上に重要な役割を果たすことを確認する。
関連論文リスト
- When Context Leads but Parametric Memory Follows in Large Language Models [4.567122178196834]
大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。
本研究では,9つのLLMがオープンな質問に対して,局所的な文脈とグローバルなパラメータの知識を割り当てる方法について検討した。
論文 参考訳(メタデータ) (2024-09-13T00:03:19Z) - Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models [20.157061521694096]
本研究では,知識編集による実体的知識と関係的知識の相違について検討する。
実体的知識と関係的知識の差異をさらに解明するために,関係的知識が事前学習されたモデルにどのように格納されているかを調べるために因果解析を用いる。
この洞察は、言語モデルにおける知識記憶の多面的な性質を強調し、これらのモデル内で特定の種類の知識を操作する複雑さを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-01T05:09:11Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。