論文の概要: Towards Continual Knowledge Learning of Language Models
- arxiv url: http://arxiv.org/abs/2110.03215v2
- Date: Fri, 8 Oct 2021 02:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:33:23.131475
- Title: Towards Continual Knowledge Learning of Language Models
- Title(参考訳): 言語モデルの継続的な学習に向けて
- Authors: Joel Jang, Seonghyeon Ye, Sohee Yang, Joongbo Shin, Janghoon Han,
Gyeonghun Kim, Stanley Jungkyu Choi, Minjoon Seo
- Abstract要約: 大規模言語モデル(LM)は、膨大な量のWebコーパスで事前訓練を行う際に、そのパラメータで世界の知識を符号化することが知られている。
実世界のシナリオでは、LMに格納されている世界知識は、世界が変化するにつれて急速に時代遅れになる。
継続知識学習(CKL)と呼ばれる新しい継続学習(CL)問題を定式化する。
- 参考スコア(独自算出の注目度): 11.000501711652829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LMs) are known to encode world knowledge in their
parameters as they pretrain on a vast amount of web corpus, which is often
utilized for performing knowledge-dependent downstream tasks such as question
answering, fact-checking, and open dialogue. In real-world scenarios, the world
knowledge stored in the LMs can quickly become outdated as the world changes,
but it is non-trivial to avoid catastrophic forgetting and reliably acquire new
knowledge while preserving invariant knowledge. To push the community towards
better maintenance of ever-changing LMs, we formulate a new continual learning
(CL) problem called Continual Knowledge Learning (CKL). We construct a new
benchmark and metric to quantify the retention of time-invariant world
knowledge, the update of outdated knowledge, and the acquisition of new
knowledge. We adopt applicable recent methods from literature to create several
strong baselines. Through extensive experiments, we find that CKL exhibits
unique challenges that are not addressed in previous CL setups, where parameter
expansion is necessary to reliably retain and learn knowledge simultaneously.
By highlighting the critical causes of knowledge forgetting, we show that CKL
is a challenging and important problem that helps us better understand and
train ever-changing LMs.
- Abstract(参考訳): 大規模言語モデル(LM)は、膨大な量のWebコーパスを事前訓練し、質問応答、ファクトチェック、オープンダイアログなどの知識に依存した下流タスクを実行するためにしばしば使用される、世界の知識をパラメータにエンコードすることが知られている。
実世界のシナリオでは、LMに格納されている世界知識は、世界が変わるにつれて急速に時代遅れになることがあるが、破滅的な忘れ物を避け、不変知識を維持しながら確実に新しい知識を取得することは容易ではない。
常に変化するlmsのメンテナンスにコミュニティを向かわせるために,我々は,連続学習(ckl)と呼ばれる新しい連続学習(cl)問題を定式化する。
我々は、時間不変の世界知識の保持、時代遅れの知識の更新、新しい知識の獲得を定量化する新しいベンチマークとメトリクスを構築した。
我々は,最近の文献の手法を応用して,強固なベースラインを複数作成する。
大規模な実験により、CKLは従来のCLセットアップでは対処できない独特な課題を示し、パラメータ拡張は知識を確実に保持し、同時に学習するために必要であることがわかった。
知識を忘れることの重大な原因を強調することで、CKLはより理解し、常に変化するLMを訓練する上で、困難で重要な問題であることを示す。
関連論文リスト
- Composite Learning Units: Generalized Learning Beyond Parameter Updates to Transform LLMs into Adaptive Reasoners [0.0]
連続学習が可能な学習者へ推論器を変換する複合学習ユニット(CLU)を導入する。
CLUは、動的知識リポジトリの保守と進化を可能にするアーキテクチャ上に構築されている。
我々は暗号推論タスクを通じてCLUの有効性を実証し、フィードバックを通じて理解を継続的に進化させ、隠れた変換規則を明らかにする。
論文 参考訳(メタデータ) (2024-10-09T02:27:58Z) - GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。
本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。
本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T01:16:04Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via
Infuser-Guided Knowledge Integration [61.554209059971576]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なオープンジェネレーション機能を示している。
新しい知識を注入すると、以前に獲得した知識を忘れるリスクが生じる。
Infuser-Guided Knowledge Integration フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - DeepEdit: Knowledge Editing as Decoding with Constraints [118.78008395850888]
多段階推論における知識の編集は、大規模言語モデル(LLM)の知識編集(KE)において大きな課題となっている。
我々は、深度優先探索により新しい知識を持つコヒーレント推論チェーンを生成するLLMの能力を高める新しいKEフレームワークDEEPEDITを提案する。
DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-19T03:48:27Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Online Continual Knowledge Learning for Language Models [3.654507524092343]
大規模言語モデル(LLM)は、幅広い世界の知識のリポジトリとして機能し、質問応答やファクトチェックなどのタスクを実行できる。
オンライン連続知識学習(OCKL)は,実時間制約下での世界知識の動的性質を管理することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T07:31:03Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - The Life Cycle of Knowledge in Big Language Models: A Survey [39.955688635216056]
事前訓練された言語モデル(PLM)は、言語モデルによって知識を取得、維持、更新、利用する方法に大きな注目を集めている。
膨大な量の関連する研究にもかかわらず、学習、チューニング、アプリケーションプロセスを通して、言語モデル内で知識がどのように循環するかについての統一された見解はいまだに存在しない。
我々は, PLMにおける知識のライフサイクルを5つの臨界期間に分割し, 構築, 維持, 使用の際の知識の循環について検討することによって, PLMを知識ベースシステムとして再考する。
論文 参考訳(メタデータ) (2023-03-14T03:49:22Z) - Incremental Knowledge Based Question Answering [52.041815783025186]
人間と同じように学習能力を段階的に拡張できるインクリメンタルKBQA学習フレームワークを提案します。
具体的には、破滅的な忘れ問題を克服するために、マージン希釈損失と協調選択方法からなる。
包括的な実験は、進化する知識ベースに取り組む際にその効果と効率を示す。
論文 参考訳(メタデータ) (2021-01-18T09:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。