論文の概要: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language
Models
- arxiv url: http://arxiv.org/abs/2311.08106v1
- Date: Tue, 14 Nov 2023 12:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:29:41.687855
- Title: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language
Models
- Title(参考訳): Carpe Diem:生涯言語モデルにおける世界知識の評価について
- Authors: Yujin Kim, Jaehong Yoon, Seonghyeon Ye, Sung Ju Hwang, Se-young Yun
- Abstract要約: 本稿では,LMのトレーニングと評価を行うための時間発展型質問応答ベンチマークであるEvolvingQAを紹介する。
本ベンチマークでは,実世界のアプリケーションをエミュレートするための下流タスクとして質問応答を取り入れた。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性に対するロバストな尺度を提供することである。
- 参考スコア(独自算出の注目度): 85.87893284239149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an ever-evolving world, the dynamic nature of knowledge presents
challenges for language models that are trained on static data, leading to
outdated encoded information. However, real-world scenarios require models not
only to acquire new knowledge but also to overwrite outdated information into
updated ones. To address this under-explored issue, we introduce the temporally
evolving question answering benchmark, EvolvingQA - a novel benchmark designed
for training and evaluating LMs on an evolving Wikipedia database, where the
construction of our benchmark is automated with our pipeline using large
language models. Our benchmark incorporates question-answering as a downstream
task to emulate real-world applications. Through EvolvingQA, we uncover that
existing continual learning baselines have difficulty in updating and
forgetting outdated knowledge. Our findings suggest that the models fail to
learn updated knowledge due to the small weight gradient. Furthermore, we
elucidate that the models struggle mostly on providing numerical or temporal
answers to questions asking for updated knowledge. Our work aims to model the
dynamic nature of real-world information, offering a robust measure for the
evolution-adaptability of language models.
- Abstract(参考訳): 進化を続ける世界では、知識の動的な性質は静的データに基づいて訓練された言語モデルに課題をもたらし、古いエンコードされた情報をもたらす。
しかし、実世界のシナリオでは、モデルが新しい知識を得るだけでなく、古い情報を更新情報に上書きする必要がある。
この未解決の問題に対処するために、時間的に進化している質問応答ベンチマークであるEvolvingQAを紹介します。これは、進化しているウィキペディアデータベース上でLMをトレーニングし評価するために設計された新しいベンチマークです。
本ベンチマークでは,実世界のアプリケーションをエミュレートするための下流タスクとして質問応答を取り入れた。
EvolvingQAを通じて、既存の継続学習ベースラインが、時代遅れの知識を更新・忘れることが困難であることを明らかにする。
以上の結果から, モデルでは, 重量勾配が小さいため, 最新の知識を学習できないことが示唆された。
さらに、モデルが主に、更新された知識を求める質問に対して、数値的または時間的回答を提供することに苦慮していることを解明する。
本研究の目的は,実世界の情報の動的性質をモデル化し,言語モデルの進化適応性を高めることにある。
関連論文リスト
- WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset [12.707584479922833]
ウィキタイデはウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットである。
我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。
論文 参考訳(メタデータ) (2023-08-07T13:38:54Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in
Question Answering Models [31.43391633383255]
提案する大規模データセットであるStreamingQAを構築した。
プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。
我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文 参考訳(メタデータ) (2022-05-23T15:33:41Z) - Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文 参考訳(メタデータ) (2021-02-03T09:01:49Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。