Fugu-MT 論文翻訳(概要): Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models

論文の概要: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models

arxiv url: http://arxiv.org/abs/2311.08106v2
Date: Sat, 20 Apr 2024 07:11:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 00:23:13.765335
Title: Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models
Title（参考訳）: Carpe Diem:生涯言語モデルにおける世界知識の評価について
Authors: Yujin Kim, Jaehong Yoon, Seonghyeon Ye, Sangmin Bae, Namgyu Ho, Sung Ju Hwang, Se-young Yun,
Abstract要約: 進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
参考スコア（独自算出の注目度）: 74.81091933317882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The dynamic nature of knowledge in an ever-changing world presents challenges for language models trained on static data; the model in the real world often requires not only acquiring new knowledge but also overwriting outdated information into updated ones. To study the ability of language models for these time-dependent dynamics in human language, we introduce a novel task, EvolvingQA, a temporally evolving question-answering benchmark designed for training and evaluating LMs on an evolving Wikipedia database. The construction of EvolvingQA is automated with our pipeline using large language models. We uncover that existing continual learning baselines suffer from updating and removing outdated knowledge. Our analysis suggests that models fail to rectify knowledge due to small weight gradients. In addition, we elucidate that language models particularly struggle to reflect the change of numerical or temporal information. Our work aims to model the dynamic nature of real-world information, suggesting faithful evaluations of the evolution-adaptability of language models.
Abstract（参考訳）: 常に変化する世界の知識のダイナミックな性質は、静的データに基づいて訓練された言語モデルに対する課題を提示している。人間の言語におけるこれらの時間依存力学のための言語モデルの能力を研究するために、進化するウィキペディアデータベース上でLMを訓練し評価するために設計された、時間的に進化する質問応答ベンチマークであるEvolvingQAを導入する。 EvolvingQAの構築は、大規模な言語モデルを使用してパイプラインで自動化されます。既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。我々の分析では、モデルが小さな重み勾配のために知識の修正に失敗することを示唆している。さらに,言語モデルが特に数値情報や時間情報の変化を反映するのに苦慮していることも明らかにした。本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。

関連論文リスト

Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-09T01:16:04Z)
Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。 EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文参考訳（メタデータ） (2024-05-15T17:19:42Z)
Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文参考訳（メタデータ） (2023-06-04T15:44:51Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models [31.43391633383255]
提案する大規模データセットであるStreamingQAを構築した。プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文参考訳（メタデータ） (2022-05-23T15:33:41Z)
Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文参考訳（メタデータ） (2021-02-03T09:01:49Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)
Facts as Experts: Adaptable and Interpretable Neural Memory over Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文参考訳（メタデータ） (2020-07-02T03:05:41Z)
Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。 LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文参考訳（メタデータ） (2020-06-29T06:09:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。