論文の概要: Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2410.01380v1
- Date: Wed, 2 Oct 2024 09:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:29:22.018180
- Title: Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition
- Title(参考訳): 言語モデルの事前学習における知識エントロピーの減少が新たな知識獲得を妨げている
- Authors: Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo,
- Abstract要約: 本研究では,モデルがパラメトリック知識を広く統合する傾向が,事前学習を通じてどのように進化するかを検討する。
モデルが関与するメモリ源の範囲を定量化する知識エントロピーの概念を導入する。
知識のエントロピーの低下は、モデルの知識獲得と保持能力を損なうことがわかった。
- 参考スコア(独自算出の注目度): 34.93274113720198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate how a model's tendency to broadly integrate its parametric knowledge evolves throughout pretraining, and how this behavior affects overall performance, particularly in terms of knowledge acquisition and forgetting. We introduce the concept of knowledge entropy, which quantifies the range of memory sources the model engages with; high knowledge entropy indicates that the model utilizes a wide range of memory sources, while low knowledge entropy suggests reliance on specific sources with greater certainty. Our analysis reveals a consistent decline in knowledge entropy as pretraining advances. We also find that the decline is closely associated with a reduction in the model's ability to acquire and retain knowledge, leading us to conclude that diminishing knowledge entropy (smaller number of active memory sources) impairs the model's knowledge acquisition and retention capabilities. We find further support for this by demonstrating that increasing the activity of inactive memory sources enhances the model's capacity for knowledge acquisition and retention.
- Abstract(参考訳): 本研究では,モデルがパラメトリック知識を広範囲に統合する傾向が,事前学習を通じてどのように発展していくのか,また,この行動が全体的なパフォーマンス,特に知識獲得や忘れやすさにどのように影響するかを考察する。
高知識エントロピーは、モデルが幅広いメモリ源を利用することを示す一方、低知識エントロピーは、より確実性の高い特定のソースに依存することを示唆する。
分析の結果,事前学習の進展に伴い,知識のエントロピーが一貫した低下がみられた。
また,この減少は,知識の獲得・保持能力の低下と密接に関連していることから,知識のエントロピーの低下(アクティブな記憶源の数が少ない)がモデルの知識獲得・保持能力を損なうという結論に至った。
不活性な記憶源の活動を増大させることで、知識獲得と保持のためのモデルの能力を高めることが示される。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Preserving Generalization of Language models in Few-shot Continual Relation Extraction [34.68364639170838]
FCRE(Few-shot Continual Relations extract)は、新たな研究分野である。
本稿では,よく捨てられる言語モデルヘッドを活用する新しい手法を提案する。
提案手法の有効性を実証し,今後の研究に有用な知見を提供する。
論文 参考訳(メタデータ) (2024-10-01T02:22:34Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Entity-Based Knowledge Conflicts in Question Answering [29.973926661540524]
我々は、文脈情報が学習情報と矛盾する知識矛盾の問題を定式化する。
本稿では,幻覚を最小化し,分布外一般化を4%~7%改善するパラメトリック知識の過度依存を軽減する手法を提案する。
本研究は, 実践者が読解よりも幻覚の傾向を評価することの重要性を示し, 緩和戦略が情報進化への一般化を促進することを示すものである。
論文 参考訳(メタデータ) (2021-09-10T18:29:44Z) - Preserving Earlier Knowledge in Continual Learning with the Help of All
Previous Feature Extractors [63.21036904487014]
時間とともに新しい知識の継続的な学習は、インテリジェントシステムがより多くのオブジェクトのクラスを認識するのに望ましい能力の1つである。
これまでに学んだすべての特徴抽出器をインテリジェントモデルに組み込むことで、シンプルで効果的な融合メカニズムを提案します。
複数の分類タスクの実験により,提案手法は従来の知識の忘れを効果的に減らし,最先端の継続的学習性能を達成できることが示されている。
論文 参考訳(メタデータ) (2021-04-28T07:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。