論文の概要: The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems
- arxiv url: http://arxiv.org/abs/2212.08192v2
- Date: Mon, 22 May 2023 21:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:53:55.699103
- Title: The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems
- Title(参考訳): KITMUSテスト:自然言語理解システムにおける複数音源からの知識統合の評価
- Authors: Akshatha Arodi, Martin P\"omsl, Kaheer Suleman, Adam Trischler,
Alexandra Olteanu, Jackie Chi Kit Cheung
- Abstract要約: 我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
- 参考スコア(独自算出の注目度): 87.3207729953778
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many state-of-the-art natural language understanding (NLU) models are based
on pretrained neural language models. These models often make inferences using
information from multiple sources. An important class of such inferences are
those that require both background knowledge, presumably contained in a model's
pretrained parameters, and instance-specific information that is supplied at
inference time. However, the integration and reasoning abilities of NLU models
in the presence of multiple knowledge sources have been largely understudied.
In this work, we propose a test suite of coreference resolution subtasks that
require reasoning over multiple facts. These subtasks differ in terms of which
knowledge sources contain the relevant facts. We also introduce subtasks where
knowledge is present only at inference time using fictional knowledge. We
evaluate state-of-the-art coreference resolution models on our dataset. Our
results indicate that several models struggle to reason on-the-fly over
knowledge observed both at pretrain time and at inference time. However, with
task-specific training, a subset of models demonstrates the ability to
integrate certain knowledge types from multiple sources. Still, even the best
performing models seem to have difficulties with reliably integrating knowledge
presented only at inference time.
- Abstract(参考訳): 多くの最先端自然言語理解(NLU)モデルは、事前訓練されたニューラルネットワークモデルに基づいている。
これらのモデルはしばしば複数の情報源の情報を用いて推論を行う。
このような推論の重要なクラスは、モデルの事前学習されたパラメータに含まれる背景知識と、推論時に提供されるインスタンス固有の情報の両方を必要とするものである。
しかし、複数の知識源が存在する場合のNLUモデルの統合と推論能力は、主に研究されている。
本研究では,複数の事象に対する推論を必要とするコリファレンスレゾリューションサブタスクのテストスイートを提案する。
これらのサブタスクは、どの知識源が関連する事実を含むかという点で異なる。
また,虚構的知識を用いて推論時間にのみ知識が存在するサブタスクを導入する。
我々は、データセット上で最先端のコア参照解決モデルを評価する。
その結果,いくつかのモデルでは,事前学習時間と推測時間の両方で観察した知識をオンザフライで推論するのに苦労していることがわかった。
しかし、タスク固有のトレーニングでは、モデルのサブセットが複数のソースから特定の知識タイプを統合する能力を示している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合することが難しいようだ。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - A Knowledge Plug-and-Play Test Bed for Open-domain Dialogue Generation [51.31429493814664]
マルチソース対話知識の選択と応答生成を評価するために,ウィキペディアのマルチソースウィザードというベンチマークを示す。
本稿では,すでに訓練済みの対話モデルを用いて,未確認の情報源からの新たなサポート知識を利用するための新たな課題である対話知識プラグイン・アンド・プレイを提案する。
論文 参考訳(メタデータ) (2024-03-06T06:54:02Z) - DisentQA: Disentangling Parametric and Contextual Knowledge with
Counterfactual Question Answering [34.70206857546496]
質問応答モデルは通常、推論時間中に「知識」の2つのソースにアクセスする。
答えが与えられた非パラメトリック知識に由来するかどうかは不明である。
本稿では,2つの知識源を解き放つために,QAモデルを訓練する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-11-10T15:34:44Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating
Models to Reflect Conflicting Evidence [37.18100697469402]
パラメトリックな知識が一つの答えを示し、異なる節が異なる答えを示す知識衝突をシミュレートする。
検索性能は、どのソースモデルが依存しているかに大きな影響を与え、現在のモデルは、主にパフォーマンスの低い知識に依存している。
我々は,複数の矛盾する解答候補が提示された場合,モデルが一つの解答を提示することを妨げる新たなキャリブレーション研究を提案する。
論文 参考訳(メタデータ) (2022-10-25T01:46:00Z) - KgPLM: Knowledge-guided Language Model Pre-training via Generative and
Discriminative Learning [45.067001062192844]
事実の知識の完成と検証によって導かれる言語モデル事前トレーニングフレームワークを提示する。
ゼロショットクローゼ型質問応答タスクのセットであるLAMAの実験結果は、私たちのモデルが従来の訓練済み言語モデルよりも豊富な事実知識を含んでいることを示しています。
論文 参考訳(メタデータ) (2020-12-07T09:39:25Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。