論文の概要: How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2502.11196v1
- Date: Sun, 16 Feb 2025 16:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.919793
- Title: How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
- Title(参考訳): LLMはどのようにして新しい知識を取得するか? : 継続的な事前学習における知識回路の視点
- Authors: Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen,
- Abstract要約: 大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
- 参考スコア(独自算出の注目度): 92.88889953768455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite exceptional capabilities in knowledge-intensive tasks, Large Language Models (LLMs) face a critical gap in understanding how they internalize new knowledge, particularly how to structurally embed acquired knowledge in their neural computations. We address this issue through the lens of knowledge circuit evolution, identifying computational subgraphs that facilitate knowledge storage and processing. Our systematic analysis of circuit evolution throughout continual pre-training reveals several key findings: (1) the acquisition of new knowledge is influenced by its relevance to pre-existing knowledge; (2) the evolution of knowledge circuits exhibits a distinct phase shift from formation to optimization; (3) the evolution of knowledge circuits follows a deep-to-shallow pattern. These insights not only advance our theoretical understanding of the mechanisms of new knowledge acquisition in LLMs, but also provide potential implications for improving continual pre-training strategies to enhance model performance. Code and data will be available at https://github.com/zjunlp/DynamicKnowledgeCircuits.
- Abstract(参考訳): 知識集約型タスクにおける例外的な機能にもかかわらず、Large Language Models(LLM)は、新たな知識の内部化方法、特に獲得した知識をニューラルネットワークに構造的に組み込む方法を理解する上で、重要なギャップに直面している。
我々は知識回路の進化のレンズを通してこの問題に対処し、知識記憶と処理を容易にする計算サブグラフを同定する。
1)知識の獲得は,既存の知識との関連性に影響され,(2)知識回路の進化は形成から最適化への相転移を示し,(3)知識回路の進化は深層から浅層へのパターンに従う。
これらの知見は、LLMにおける新たな知識獲得のメカニズムに関する理論的理解を前進させるだけでなく、モデル性能を向上させるための継続的な事前学習戦略を改善する可能性も与えている。
コードとデータはhttps://github.com/zjunlp/DynamicKnowledgeCircuits.comから入手できる。
関連論文リスト
- Towards Understanding How Knowledge Evolves in Large Vision-Language Models [55.82918299608732]
我々はマルチモーダル知識がどのように進化し、最終的にLVLM(Large Vision-Language Models)において自然言語を誘導するかを考察する。
知識進化における2つの重要なノードを同定する: 臨界層と突然変異層、進化過程を3段階に分割する: 急速な進化、安定化、突然変異。
我々の研究は、LVLMにおける知識進化の軌跡を初めて明らかにし、その基盤となるメカニズムを理解するための新たな視点を提供する。
論文 参考訳(メタデータ) (2025-03-31T17:35:37Z) - Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。
自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。
本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - Composite Learning Units: Generalized Learning Beyond Parameter Updates to Transform LLMs into Adaptive Reasoners [0.0]
連続学習が可能な学習者へ推論器を変換する複合学習ユニット(CLU)を導入する。
CLUは、動的知識リポジトリの保守と進化を可能にするアーキテクチャ上に構築されている。
我々は暗号推論タスクを通じてCLUの有効性を実証し、フィードバックを通じて理解を継続的に進化させ、隠れた変換規則を明らかにする。
論文 参考訳(メタデータ) (2024-10-09T02:27:58Z) - Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integration [58.61492157691623]
知識を統合する手法が開発され、外部モジュールを通してLLMをドメイン固有の知識グラフに拡張した。
本研究は,未知の知識をLLMに効率的に統合することで,未知の知識を不要に重複させるという,新たな問題に焦点をあてる。
新しい知識を導入するリスクは、既存の知識を忘れることである。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Towards Continual Knowledge Learning of Language Models [11.000501711652829]
大規模言語モデル(LM)は、膨大な量のWebコーパスで事前訓練を行う際に、そのパラメータで世界の知識を符号化することが知られている。
実世界のシナリオでは、LMに格納されている世界知識は、世界が変化するにつれて急速に時代遅れになる。
継続知識学習(CKL)と呼ばれる新しい継続学習(CL)問題を定式化する。
論文 参考訳(メタデータ) (2021-10-07T07:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。