論文の概要: How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2502.11196v1
- Date: Sun, 16 Feb 2025 16:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:29.682064
- Title: How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
- Title(参考訳): LLMはどのようにして新しい知識を取得するか? : 継続的な事前学習における知識回路の視点
- Authors: Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen,
- Abstract要約: 大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
- 参考スコア(独自算出の注目度): 92.88889953768455
- License:
- Abstract: Despite exceptional capabilities in knowledge-intensive tasks, Large Language Models (LLMs) face a critical gap in understanding how they internalize new knowledge, particularly how to structurally embed acquired knowledge in their neural computations. We address this issue through the lens of knowledge circuit evolution, identifying computational subgraphs that facilitate knowledge storage and processing. Our systematic analysis of circuit evolution throughout continual pre-training reveals several key findings: (1) the acquisition of new knowledge is influenced by its relevance to pre-existing knowledge; (2) the evolution of knowledge circuits exhibits a distinct phase shift from formation to optimization; (3) the evolution of knowledge circuits follows a deep-to-shallow pattern. These insights not only advance our theoretical understanding of the mechanisms of new knowledge acquisition in LLMs, but also provide potential implications for improving continual pre-training strategies to enhance model performance. Code and data will be available at https://github.com/zjunlp/DynamicKnowledgeCircuits.
- Abstract(参考訳): 知識集約型タスクにおける例外的な機能にもかかわらず、Large Language Models(LLM)は、新たな知識の内部化方法、特に獲得した知識をニューラルネットワークに構造的に組み込む方法を理解する上で、重要なギャップに直面している。
我々は知識回路の進化のレンズを通してこの問題に対処し、知識記憶と処理を容易にする計算サブグラフを同定する。
1)知識の獲得は,既存の知識との関連性に影響され,(2)知識回路の進化は形成から最適化への相転移を示し,(3)知識回路の進化は深層から浅層へのパターンに従う。
これらの知見は、LLMにおける新たな知識獲得のメカニズムに関する理論的理解を前進させるだけでなく、モデル性能を向上させるための継続的な事前学習戦略を改善する可能性も与えている。
コードとデータはhttps://github.com/zjunlp/DynamicKnowledgeCircuits.comから入手できる。
関連論文リスト
- Composite Learning Units: Generalized Learning Beyond Parameter Updates to Transform LLMs into Adaptive Reasoners [0.0]
連続学習が可能な学習者へ推論器を変換する複合学習ユニット(CLU)を導入する。
CLUは、動的知識リポジトリの保守と進化を可能にするアーキテクチャ上に構築されている。
我々は暗号推論タスクを通じてCLUの有効性を実証し、フィードバックを通じて理解を継続的に進化させ、隠れた変換規則を明らかにする。
論文 参考訳(メタデータ) (2024-10-09T02:27:58Z) - Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integration [58.61492157691623]
知識を統合する手法が開発され、外部モジュールを通してLLMをドメイン固有の知識グラフに拡張した。
本研究は,未知の知識をLLMに効率的に統合することで,未知の知識を不要に重複させるという,新たな問題に焦点をあてる。
新しい知識を導入するリスクは、既存の知識を忘れることである。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Towards Continual Knowledge Learning of Language Models [11.000501711652829]
大規模言語モデル(LM)は、膨大な量のWebコーパスで事前訓練を行う際に、そのパラメータで世界の知識を符号化することが知られている。
実世界のシナリオでは、LMに格納されている世界知識は、世界が変化するにつれて急速に時代遅れになる。
継続知識学習(CKL)と呼ばれる新しい継続学習(CL)問題を定式化する。
論文 参考訳(メタデータ) (2021-10-07T07:00:57Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。