論文の概要: StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in
Question Answering Models
- arxiv url: http://arxiv.org/abs/2205.11388v1
- Date: Mon, 23 May 2022 15:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 01:04:23.633781
- Title: StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in
Question Answering Models
- Title(参考訳): streamingqa: 質問応答モデルにおける新しい知識への適応のためのベンチマーク
- Authors: Adam Li\v{s}ka, Tom\'a\v{s} Ko\v{c}isk\'y, Elena Gribovskaya, Tayfun
Terzi, Eren Sezener, Devang Agrawal, Cyprien de Masson d'Autume, Tim
Scholtes, Manzil Zaheer, Susannah Young, Ellen Gilsenan-McMahon, Sophia
Austin, Phil Blunsom, Angeliki Lazaridou
- Abstract要約: 提案する大規模データセットであるStreamingQAを構築した。
プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。
我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
- 参考スコア(独自算出の注目度): 31.43391633383255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge and language understanding of models evaluated through question
answering (QA) has been usually studied on static snapshots of knowledge, like
Wikipedia. However, our world is dynamic, evolves over time, and our models'
knowledge becomes outdated. To study how semi-parametric QA models and their
underlying parametric language models (LMs) adapt to evolving knowledge, we
construct a new large-scale dataset, StreamingQA, with human written and
generated questions asked on a given date, to be answered from 14 years of
time-stamped news articles. We evaluate our models quarterly as they read new
articles not seen in pre-training. We show that parametric models can be
updated without full retraining, while avoiding catastrophic forgetting. For
semi-parametric models, adding new articles into the search space allows for
rapid adaptation, however, models with an outdated underlying LM under-perform
those with a retrained LM. For questions about higher-frequency named entities,
parametric updates are particularly beneficial. In our dynamic world, the
StreamingQA dataset enables a more realistic evaluation of QA models, and our
experiments highlight several promising directions for future research.
- Abstract(参考訳): 質問応答(QA)によって評価されたモデルの知識と言語理解は、通常ウィキペディアのような知識の静的スナップショットで研究されている。
しかし、私たちの世界は動的であり、時間とともに進化し、モデルの知識は時代遅れになります。
半パラメトリックQAモデルとその基盤となるパラメトリック言語モデル(LM)が、進化する知識にどのように適応するかを研究するために、14年間のタイムスタンプニュース記事から答えられるように、人間の記述と生成された質問を伴う、新しい大規模データセットStreamingQAを構築した。
事前トレーニングでは見られない新しい記事を読みながら、四半期毎にモデルを評価します。
我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
しかし、半パラメトリックモデルでは、検索空間に新しい記事を追加することで、古いlmを持つモデルは、再訓練されたlmを持つモデルに過小評価される。
高周波名前のエンティティに関する質問に対して、パラメトリック更新は特に有益である。
ダイナミックな世界では、StreamingQAデータセットにより、QAモデルのより現実的な評価が可能になります。
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.566250952750758]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。
付随するDIA-Benchデータセットは、テキスト、PDF、コンパイルされたバイナリ、視覚パズルなど、さまざまなフォーマットで表示される。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning [2.8972337324168014]
本研究では, PLMが学習し, 学習前コーパスで発生しない新たな世界知識事実を記憶する方法について検討する。
我々はまず,最近のウィキデータ更新から抽出された新しい事実を含む文からなる新しいデータセットであるNove-WDを提案する。
このデータセットをコミュニティに無償で提供し、その後、最新情報を備えた類似データセットの新バージョンを構築する手順をリリースします。
論文 参考訳(メタデータ) (2024-08-30T07:54:50Z) - Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization [67.92796510359595]
Open-Domain Question Answering (OpenQA)は、外部の大規模知識コーパスで事実質問に答えることを目的としている。
OpenQAモデルが完全に新しい知識ドメインにどの程度うまく移行できるかは、まだ不明である。
コーパス不変チューニング(CIT: Corpus-Invariant Tuning)は,記憶過剰な知識の軽減を目的とした,シンプルで効果的なトレーニング戦略である。
論文 参考訳(メタデータ) (2024-04-02T05:44:50Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。