論文の概要: The Effect of Masking Strategies on Knowledge Retention by Language
Models
- arxiv url: http://arxiv.org/abs/2306.07185v1
- Date: Mon, 12 Jun 2023 15:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:01:17.423077
- Title: The Effect of Masking Strategies on Knowledge Retention by Language
Models
- Title(参考訳): マスキング戦略が言語モデルによる知識保持に及ぼす影響
- Authors: Jonas Wallat, Tianyi Zhang, Avishek Anand
- Abstract要約: 本稿では,事前学習タスクが言語モデルによって捉え,忘れられた知識量に与える影響を理解することを目的とする。
我々は,実際の質問に答える能力を測定することによって,モデルの知識保持を検証した。
我々の研究結果は、あるタスクを実行する能力と同様に、そのタスクでトレーニングされた知識は、あるモデルが別のタスクを実行するように訓練されたときに忘れられることを示した。
- 参考スコア(独自算出の注目度): 9.130890741447422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models retain a significant amount of world knowledge from their
pre-training stage. This allows knowledgeable models to be applied to
knowledge-intensive tasks prevalent in information retrieval, such as ranking
or question answering. Understanding how and which factual information is
acquired by our models is necessary to build responsible models. However,
limited work has been done to understand the effect of pre-training tasks on
the amount of knowledge captured and forgotten by language models during
pre-training. Building a better understanding of knowledge acquisition is the
goal of this paper. Therefore, we utilize a selection of pre-training tasks to
infuse knowledge into our model. In the following steps, we test the model's
knowledge retention by measuring its ability to answer factual questions. Our
experiments show that masking entities and principled masking of correlated
spans based on pointwise mutual information lead to more factual knowledge
being retained than masking random tokens. Our findings demonstrate that, like
the ability to perform a task, the (factual) knowledge acquired from being
trained on that task is forgotten when a model is trained to perform another
task (catastrophic forgetting) and how to prevent this phenomenon. To foster
reproducibility, the code, as well as the data used in this paper, are openly
available.
- Abstract(参考訳): 言語モデルは、事前学習段階からかなりの量の世界の知識を保持する。
これにより、知識のあるモデルは、ランク付けや質問応答といった情報検索で一般的な知識集約的なタスクに適用できる。
責任あるモデルを構築するためには、モデルによってどの事実情報が取得されるかを理解する必要があります。
しかし,事前学習作業が事前学習中に言語モデルによって獲得・忘れられた知識量に与える影響を理解するために,限定的な研究がなされている。
知識獲得の理解を深めることが本論文の目標である。
そこで,事前学習タスクの選択を利用して知識をモデルに注入する。
下記のステップでは、実際の質問に答える能力を測定することにより、モデルの知識保持をテストする。
本研究は,相互情報に基づく相関スパンのマスキングエンティティと原則マスキングが,ランダムトークンをマスキングするよりも事実的知識が保持されることを示す。
本研究は, 課題遂行能力と同様に, モデルが他の課題(破滅的な忘れ方)を遂行するために訓練された場合, 実際に得られた知識は, 忘れられてしまうことを示した。
再現性を高めるため、この論文で使用されるデータとともに、コードも公開されている。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Large Scale Knowledge Washing [24.533316191149677]
大規模な言語モデルは、世界の知識を記憶する素晴らしい能力を示している。
本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-26T23:29:49Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。