論文の概要: A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia
- arxiv url: http://arxiv.org/abs/2312.02073v1
- Date: Mon, 4 Dec 2023 17:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:15:27.792077
- Title: A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia
- Title(参考訳): マトリックスの不具合?
Fakepediaによる言語モデルの座位と検出
- Authors: Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary,
Jason Eisner, Emre K{\i}c{\i}man, Hamid Palangi, Barun Patra, Robert West
- Abstract要約: 大規模言語モデル(LLM)は、事実知識の保存とリコールにおいて、印象的な能力を示している。
しかし、それらの文脈内接地機構はいまだに不明である。
Fakepediaは、パラメトリックな知識がコンテキスト内情報と衝突した場合の基盤能力を評価するために設計されたデータセットである。
- 参考スコア(独自算出の注目度): 68.00056517461402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities in
storing and recalling factual knowledge, but also in adapting to novel
in-context information. Yet, the mechanisms underlying their in-context
grounding remain unknown, especially in situations where in-context information
contradicts factual knowledge embedded in the parameters. This is critical for
retrieval-augmented generation methods, which enrich the context with
up-to-date information, hoping that grounding can rectify the outdated
parametric knowledge. In this study, we introduce Fakepedia, a counterfactual
dataset designed to evaluate grounding abilities when the parametric knowledge
clashes with the in-context information. We benchmark various LLMs with
Fakepedia and discover that GPT-4-turbo has a strong preference for its
parametric knowledge. Mistral-7B, on the contrary, is the model that most
robustly chooses the grounded answer. Then, we conduct causal mediation
analysis on LLM components when answering Fakepedia queries. We demonstrate
that inspection of the computational graph alone can predict LLM grounding with
92.8% accuracy, especially because few MLPs in the Transformer can predict
non-grounded behavior. Our results, together with existing findings about
factual recall mechanisms, provide a coherent narrative of how grounding and
factual recall mechanisms interact within LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事実知識の保存とリコールだけでなく、新しいインコンテキスト情報にも適応する能力を示した。
しかし、特に文脈内情報がパラメータに埋め込まれた事実知識と矛盾する状況において、文脈内接地機構は依然として不明である。
これは、過去のパラメトリック知識を正し得ることを期待して、最新の情報でコンテキストを豊かにする検索拡張生成手法にとって重要である。
本研究では,パラメトリック知識がコンテキスト内情報と衝突した場合の接地能力を評価するために設計された対物データセットであるFakepediaを紹介する。
Fakepedia で様々な LLM をベンチマークし,GPT-4-turbo がそのパラメトリック知識を強く好んでいることを発見した。
反対にMistral-7Bは、最も堅牢に答えを選択するモデルである。
次に、Fakepediaクエリに応答する際のLCM成分の因果媒介分析を行う。
計算グラフのみの検査は、特にトランスフォーマー内のMLPが非接地動作を予測できないため、92.8%の精度でLLM接地を予測できることを実証する。
本研究は,事実リコール機構に関する既往の知見とともに,llm内におけるグルーディングと事実リコール機構の相互作用に関するコヒーレントな物語を提供する。
関連論文リスト
- Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents [54.953320616069654]
Retrieval-augmented Generationは、完全なパラメトリック言語モデルの多くの問題を緩和する。
RAGでは、コンテキストで提供される文書からモデルの知識を更新することができる。
本稿では,そのような知識紛争を現実的に研究するための枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:59:36Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。