Fugu-MT 論文翻訳(概要): Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models

論文の概要: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models

arxiv url: http://arxiv.org/abs/2311.08106v1
Date: Tue, 14 Nov 2023 12:12:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:29:41.687855
Title: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models
Title（参考訳）: Carpe Diem:生涯言語モデルにおける世界知識の評価について
Authors: Yujin Kim, Jaehong Yoon, Seonghyeon Ye, Sung Ju Hwang, Se-young Yun
Abstract要約: 本稿では,LMのトレーニングと評価を行うための時間発展型質問応答ベンチマークであるEvolvingQAを紹介する。本ベンチマークでは,実世界のアプリケーションをエミュレートするための下流タスクとして質問応答を取り入れた。本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性に対するロバストな尺度を提供することである。
参考スコア（独自算出の注目度）: 85.87893284239149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In an ever-evolving world, the dynamic nature of knowledge presents challenges for language models that are trained on static data, leading to outdated encoded information. However, real-world scenarios require models not only to acquire new knowledge but also to overwrite outdated information into updated ones. To address this under-explored issue, we introduce the temporally evolving question answering benchmark, EvolvingQA - a novel benchmark designed for training and evaluating LMs on an evolving Wikipedia database, where the construction of our benchmark is automated with our pipeline using large language models. Our benchmark incorporates question-answering as a downstream task to emulate real-world applications. Through EvolvingQA, we uncover that existing continual learning baselines have difficulty in updating and forgetting outdated knowledge. Our findings suggest that the models fail to learn updated knowledge due to the small weight gradient. Furthermore, we elucidate that the models struggle mostly on providing numerical or temporal answers to questions asking for updated knowledge. Our work aims to model the dynamic nature of real-world information, offering a robust measure for the evolution-adaptability of language models.
Abstract（参考訳）: 進化を続ける世界では、知識の動的な性質は静的データに基づいて訓練された言語モデルに課題をもたらし、古いエンコードされた情報をもたらす。しかし、実世界のシナリオでは、モデルが新しい知識を得るだけでなく、古い情報を更新情報に上書きする必要がある。この未解決の問題に対処するために、時間的に進化している質問応答ベンチマークであるEvolvingQAを紹介します。これは、進化しているウィキペディアデータベース上でLMをトレーニングし評価するために設計された新しいベンチマークです。本ベンチマークでは,実世界のアプリケーションをエミュレートするための下流タスクとして質問応答を取り入れた。 EvolvingQAを通じて、既存の継続学習ベースラインが、時代遅れの知識を更新・忘れることが困難であることを明らかにする。以上の結果から, モデルでは, 重量勾配が小さいため, 最新の知識を学習できないことが示唆された。さらに、モデルが主に、更新された知識を求める質問に対して、数値的または時間的回答を提供することに苦慮していることを解明する。本研究の目的は,実世界の情報の動的性質をモデル化し,言語モデルの進化適応性を高めることにある。

関連論文リスト

GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-09T01:16:04Z)
Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。 EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文参考訳（メタデータ） (2024-05-15T17:19:42Z)
Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文参考訳（メタデータ） (2023-06-04T15:44:51Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.43391633383255]
提案する大規模データセットであるStreamingQAを構築した。プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文参考訳（メタデータ） (2022-05-23T15:33:41Z)
Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文参考訳（メタデータ） (2021-02-03T09:01:49Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)
Facts as Experts: Adaptable and Interpretable Neural Memory over Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文参考訳（メタデータ） (2020-07-02T03:05:41Z)
Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。 LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文参考訳（メタデータ） (2020-06-29T06:09:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。