論文の概要: MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions
- arxiv url: http://arxiv.org/abs/2305.14795v1
- Date: Wed, 24 May 2023 06:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:51:37.025003
- Title: MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions
- Title(参考訳): MQuAKE:マルチホップ質問による言語モデルにおける知識編集の評価
- Authors: Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning, Christopher Potts,
Danqi Chen
- Abstract要約: MQuAKE (Multi-hop Question Answering for Knowledge Editing)を提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
我々は,MLLoがLLM(最大175B)とうまく対応し,従来のモデルエディタよりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 59.043769952805626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The information stored in large language models (LLMs) falls out of date
quickly, and retraining from scratch is often not an option. This has recently
given rise to a range of techniques for injecting new facts through updating
model weights. Current evaluation paradigms are extremely limited, mainly
validating the recall of edited facts, but changing one fact should cause
rippling changes to the model's related beliefs. If we edit the UK Prime
Minister to now be Rishi Sunak, then we should get a different answer to Who is
married to the British Prime Minister? In this work, we present a benchmark
MQuAKE (Multi-hop Question Answering for Knowledge Editing) comprising
multi-hop questions that assess whether edited models correctly answer
questions where the answer should change as an entailed consequence of edited
facts. While we find that current knowledge-editing approaches can recall
edited facts accurately, they fail catastrophically on the constructed
multi-hop questions. We thus propose a simple memory-based approach, MeLLo,
which stores all edited facts externally while prompting the language model
iteratively to generate answers that are consistent with the edited facts.
While MQuAKE remains challenging, we show that MeLLo scales well with LLMs (up
to 175B) and outperforms previous model editors by a large margin.
- Abstract(参考訳): 大きな言語モデル(LLM)に格納されている情報は、すぐに時代遅れになり、スクラッチから再トレーニングすることは、多くの場合オプションではない。
これは最近、モデル重み付けを更新して新しい事実を注入する様々なテクニックを生み出した。
現在の評価パラダイムは極めて限定的であり、主に編集された事実のリコールを検証するが、1つの事実を変更することは、モデルの関連する信念に波及する変化を引き起こすべきである。
もし英国首相をリシ・スナックに編集したら、誰がイギリス首相と結婚するのか、別の答えを得るべきだ。
本研究では,編集されたモデルが,編集された事実の関連する結果として,どの回答を変更すべきかを正しく判断するマルチホップ質問を含むベンチマークMQuAKE(Multi-hop Question Answering for Knowledge Editing)を提案する。
現在の知識編集アプローチは、編集された事実を正確に思い出すことができるが、構築されたマルチホップの質問で破滅的に失敗する。
そこで我々は,すべての編集された事実を外部に格納し,言語モデルを反復的に促し,編集された事実と一致する回答を生成するシンプルなメモリベースアプローチであるmelloを提案する。
MQuAKEは依然として挑戦的だが、MLLoはLLM(最大175B)と同等にスケールし、以前のモデルエディタよりも大きなマージンで優れていることを示す。
関連論文リスト
- Retrieval-Enhanced Knowledge Editing for Multi-Hop Question Answering in Language Models [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識更新の統合に苦慮している。
マルチホップ質問応答に適したRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。
マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。
具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文 参考訳(メタデータ) (2023-12-23T08:32:13Z) - Untying the Reversal Curse via Bidirectional Language Model Editing [44.03030861000567]
大規模言語モデル(LLM)は、膨大な事実知識をパラメータに格納する。
LLMは、誤ったまたは時代遅れの知識のために意図しないテキストを幻覚させる傾向がある。
本研究では、双方向言語モデル編集について検討し、LLMが双方向で編集知識をリコールできるかどうかを評価する。
論文 参考訳(メタデータ) (2023-10-16T12:04:13Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。