論文の概要: Why Do Neural Language Models Still Need Commonsense Knowledge to Handle
Semantic Variations in Question Answering?
- arxiv url: http://arxiv.org/abs/2209.00599v1
- Date: Thu, 1 Sep 2022 17:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:51:32.851404
- Title: Why Do Neural Language Models Still Need Commonsense Knowledge to Handle
Semantic Variations in Question Answering?
- Title(参考訳): 質問応答における意味的変化を扱うために,なぜニューラル言語モデルがコモンセンスの知識を必要とするのか?
- Authors: Sunjae Kwon, Cheongwoong Kang, Jiyeon Han, Jaesik Choi
- Abstract要約: マスク付きニューラルネットワークモデル(MNLM)は、巨大なニューラルネットワーク構造で構成され、マスクされたテキストを復元するように訓練されている。
本稿では,MNLMの事前学習に含まれるコモンセンス知識について,新たな知見と実証分析を行った。
- 参考スコア(独自算出の注目度): 22.536777694218593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many contextualized word representations are now learned by intricate neural
network models, such as masked neural language models (MNLMs) which are made up
of huge neural network structures and trained to restore the masked text. Such
representations demonstrate superhuman performance in some reading
comprehension (RC) tasks which extract a proper answer in the context given a
question. However, identifying the detailed knowledge trained in MNLMs is
challenging owing to numerous and intermingled model parameters. This paper
provides new insights and empirical analyses on commonsense knowledge included
in pretrained MNLMs. First, we use a diagnostic test that evaluates whether
commonsense knowledge is properly trained in MNLMs. We observe that a large
proportion of commonsense knowledge is not appropriately trained in MNLMs and
MNLMs do not often understand the semantic meaning of relations accurately. In
addition, we find that the MNLM-based RC models are still vulnerable to
semantic variations that require commonsense knowledge. Finally, we discover
the fundamental reason why some knowledge is not trained. We further suggest
that utilizing an external commonsense knowledge repository can be an effective
solution. We exemplify the possibility to overcome the limitations of the
MNLM-based RC models by enriching text with the required knowledge from an
external commonsense knowledge repository in controlled experiments.
- Abstract(参考訳): 多くの文脈化された単語表現は、マスク付きニューラルネットワークモデル(mnlms)のような複雑なニューラルネットワークモデルによって学習され、巨大なニューラルネットワーク構造で構成され、マスク付きテキストを復元するように訓練されている。
このような表現は、質問に対する適切な回答を抽出する読解理解(RC)タスクにおいて、超人的なパフォーマンスを示す。
しかし、MNLMで訓練された詳細な知識を特定することは、多数のモデルパラメータが混在しているため困難である。
本稿では,MNLMの事前学習に含まれるコモンセンス知識について,新たな知見と実証分析を行った。
まず,コモンセンス知識がmnlmsで適切に訓練されているかどうかを評価する診断試験を行う。
我々は,MNLMにおいて,多くのコモンセンス知識が適切に訓練されておらず,MNLMが関係の意味を正確に理解していないことを観察する。
さらに,MNLMに基づくRCモデルは,コモンセンスの知識を必要とするセマンティックなバリエーションに対して依然として脆弱であることがわかった。
最後に、ある知識が訓練されていない根本的な理由を見つけます。
さらに,外部のcommonsense知識レポジトリを利用することが効果的なソリューションとなることを示唆する。
制御実験において,外部コモンセンス知識リポジトリから必要な知識をテキストで強化することにより,mnlmベースのrcモデルの限界を克服する可能性を実証する。
関連論文リスト
- Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - What's in an embedding? Would a rose by any embedding smell as sweet? [0.0]
大規模言語モデル(LLM)は、真の「理解」と知識を「理解」する能力に欠けるとしてしばしば批判される。
我々は, LLM が「幾何学的」な経験的「下地」を発達させ, NLP の様々な応用に適していると考えられることを示唆する。
これらの制限を克服するために、LLMはシンボリックAI要素を含む知識の「代数的」表現と統合されるべきである。
論文 参考訳(メタデータ) (2024-06-11T01:10:40Z) - Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Empowering Language Models with Knowledge Graph Reasoning for Question
Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。
OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。
クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-15T18:26:26Z) - Knowledge Authoring with Factual English [0.0]
知識表現と推論(KRR)システムは知識を事実と規則の集合として表現する。
一つの解決策は英語の文章から知識を抽出することであり、多くの研究がそれを試みている。
残念なことに、制限されていない自然言語から論理的事実を抽出するのは、推論に使用するには不正確すぎる。
近年のCNLベースのアプローチであるKnowledge Authoring Logic Machine(KALM)は,他と比較して非常に精度が高いことが示されている。
論文 参考訳(メタデータ) (2022-08-05T10:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。