Fugu-MT 論文翻訳(概要): A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia

論文の概要: A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia

arxiv url: http://arxiv.org/abs/2312.02073v1
Date: Mon, 4 Dec 2023 17:35:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 14:15:27.792077
Title: A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia
Title（参考訳）: マトリックスの不具合? Fakepediaによる言語モデルの座位と検出
Authors: Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary, Jason Eisner, Emre K{\i}c{\i}man, Hamid Palangi, Barun Patra, Robert West
Abstract要約: 大規模言語モデル(LLM)は、事実知識の保存とリコールにおいて、印象的な能力を示している。しかし、それらの文脈内接地機構はいまだに不明である。 Fakepediaは、パラメトリックな知識がコンテキスト内情報と衝突した場合の基盤能力を評価するために設計されたデータセットである。
参考スコア（独自算出の注目度）: 68.00056517461402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive capabilities in storing and recalling factual knowledge, but also in adapting to novel in-context information. Yet, the mechanisms underlying their in-context grounding remain unknown, especially in situations where in-context information contradicts factual knowledge embedded in the parameters. This is critical for retrieval-augmented generation methods, which enrich the context with up-to-date information, hoping that grounding can rectify the outdated parametric knowledge. In this study, we introduce Fakepedia, a counterfactual dataset designed to evaluate grounding abilities when the parametric knowledge clashes with the in-context information. We benchmark various LLMs with Fakepedia and discover that GPT-4-turbo has a strong preference for its parametric knowledge. Mistral-7B, on the contrary, is the model that most robustly chooses the grounded answer. Then, we conduct causal mediation analysis on LLM components when answering Fakepedia queries. We demonstrate that inspection of the computational graph alone can predict LLM grounding with 92.8% accuracy, especially because few MLPs in the Transformer can predict non-grounded behavior. Our results, together with existing findings about factual recall mechanisms, provide a coherent narrative of how grounding and factual recall mechanisms interact within LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、事実知識の保存とリコールだけでなく、新しいインコンテキスト情報にも適応する能力を示した。しかし、特に文脈内情報がパラメータに埋め込まれた事実知識と矛盾する状況において、文脈内接地機構は依然として不明である。これは、過去のパラメトリック知識を正し得ることを期待して、最新の情報でコンテキストを豊かにする検索拡張生成手法にとって重要である。本研究では,パラメトリック知識がコンテキスト内情報と衝突した場合の接地能力を評価するために設計された対物データセットであるFakepediaを紹介する。 Fakepedia で様々な LLM をベンチマークし,GPT-4-turbo がそのパラメトリック知識を強く好んでいることを発見した。反対にMistral-7Bは、最も堅牢に答えを選択するモデルである。次に、Fakepediaクエリに応答する際のLCM成分の因果媒介分析を行う。計算グラフのみの検査は、特にトランスフォーマー内のMLPが非接地動作を予測できないため、92.8%の精度でLLM接地を予測できることを実証する。本研究は,事実リコール機構に関する既往の知見とともに,llm内におけるグルーディングと事実リコール機構の相互作用に関するコヒーレントな物語を提供する。

関連論文リスト

"Lost-in-the-Later": Framework for Quantifying Contextual Grounding in Large Language Models [4.712325494028972]
モデルと言語間の文脈的知識を測定する新しい評価フレームワークであるCoPEを紹介する。大規模言語モデルがどのようにコンテキストを統合し、情報を優先順位付けし、PKをオープンな質問応答に組み込むかを分析する。推論モデルと、チェーン・オブ・シント(CoT)によって引き起こされた非推論モデルが、CoTのない非推論モデルよりもコンテキストを使用し、失われた後の効果を軽減できないことがわかった。
論文参考訳（メタデータ） (2025-07-07T19:13:20Z)
Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs [0.0]
大規模言語モデル(LLM)は、質問応答と推論において顕著な能力を示す。この知識を更新するには、通常、高価で不安定な再トレーニングが必要です。本稿では、ソース文書から構造化された外部メモリを段階的に構築する軽量なエージェント型フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T20:13:33Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-04T20:38:41Z)
Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents [54.953320616069654]
Retrieval-augmented Generationは、完全なパラメトリック言語モデルの多くの問題を緩和する。 RAGでは、コンテキストで提供される文書からモデルの知識を更新することができる。本稿では,そのような知識紛争を現実的に研究するための枠組みを提案する。
論文参考訳（メタデータ） (2024-04-24T17:59:36Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。