論文の概要: LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements
- arxiv url: http://arxiv.org/abs/2404.06283v1
- Date: Tue, 9 Apr 2024 13:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:40:35.204262
- Title: LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements
- Title(参考訳): LLMの読解理解はパラメトリック知識と仮説文によるストラグルによって影響される
- Authors: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty,
- Abstract要約: 言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
- 参考スコア(独自算出の注目度): 59.71218039095155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of reading comprehension (RC), often implemented as context-based question answering (QA), provides a primary means to assess language models' natural language understanding (NLU) capabilities. Yet, when applied to large language models (LLMs) with extensive built-in world knowledge, this method can be deceptive. If the context aligns with the LLMs' internal knowledge, it is hard to discern whether the models' answers stem from context comprehension or from LLMs' internal information. Conversely, using data that conflicts with the models' knowledge creates erroneous trends which distort the results. To address this issue, we suggest to use RC on imaginary data, based on fictitious facts and entities. This task is entirely independent of the models' world knowledge, enabling us to evaluate LLMs' linguistic abilities without the interference of parametric knowledge. Testing ChatGPT, GPT-4, LLaMA 2 and Mixtral on such imaginary data, we uncover a class of linguistic phenomena posing a challenge to current LLMs, involving thinking in terms of alternative, hypothetical scenarios. While all the models handle simple affirmative and negative contexts with high accuracy, they are much more prone to error when dealing with modal and conditional contexts. Crucially, these phenomena also trigger the LLMs' vulnerability to knowledge-conflicts again. In particular, while some models prove virtually unaffected by knowledge conflicts in affirmative and negative contexts, when faced with more semantically involved modal and conditional environments, they often fail to separate the text from their internal knowledge.
- Abstract(参考訳): 文脈に基づく質問応答(QA)としてしばしば実装される理解理解(RC)の課題は、言語モデルの自然言語理解(NLU)能力を評価するための主要な手段を提供する。
しかし,世界知識の豊富な大規模言語モデル(LLM)に適用すると,この手法は誤認される可能性がある。
文脈がLLMの内部知識と一致している場合、モデルの回答が文脈理解に由来するか、LLMの内部情報に由来するのかを判別することは困難である。
逆に、モデルの知識と矛盾するデータを使用することで、結果を歪ませる誤った傾向が生じる。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
このタスクはモデルの世界知識とは独立しており、パラメトリック知識の干渉なしにLLMの言語能力を評価することができる。
このような想像上のデータに基づいてChatGPT,GPT-4,LLaMA 2,Mixtralを検証したところ,代案的,仮説的シナリオの観点から考えることで,現在のLLMに挑戦する言語現象のクラスが明らかになった。
すべてのモデルは、単純な肯定的および負のコンテキストを高い精度で扱うが、モーダルおよび条件付きコンテキストを扱う場合、エラーがより多く発生する。
重要なことに、これらの現象はLLMの脆弱性を再び知識の衝突に引き起こす。
特に、いくつかのモデルは、肯定的および否定的な文脈における知識の衝突によって事実上影響を受けないことが証明されているが、より意味論的に関係する様相や条件的環境に直面した場合には、テキストを内部の知識から切り離すことがしばしば失敗する。
関連論文リスト
- Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,事前学習したLLMを微調整し,文脈内における目標知識の学習を迅速に行えるようにする。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - Misinforming LLMs: vulnerabilities, challenges and opportunities [4.54019093815234]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、その基盤となるメカニズムはしばしば誤解されている。
本稿では,現在のLLMアーキテクチャは,単語埋め込みベクトルの逐次パターンの相関に依存するため,本質的に不確実であると主張している。
生成トランスフォーマーベースのモデルとファクトベースと論理プログラミング言語を組み合わせる研究は、信頼できるLLMの開発に繋がる可能性がある。
論文 参考訳(メタデータ) (2024-08-02T10:35:49Z) - Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文 参考訳(メタデータ) (2024-04-19T12:23:57Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。