論文の概要: TAXI: Evaluating Categorical Knowledge Editing for Language Models
- arxiv url: http://arxiv.org/abs/2404.15004v1
- Date: Tue, 23 Apr 2024 13:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:01:50.107566
- Title: TAXI: Evaluating Categorical Knowledge Editing for Language Models
- Title(参考訳): TAXI:言語モデルのカテゴリ的知識編集の評価
- Authors: Derek Powell, Walter Gerych, Thomas Hartvigsen,
- Abstract要約: 知識編集は、言語モデルに新しい事実を注入し、その事実性を改善することを目的としている。
現在のベンチマークでは、効率、正確、一般化可能な編集を保証するために重要な一貫性の評価に失敗している。
私たちは、一貫性を評価するために特別に作られた新しいベンチマークデータセットであるTAXIを手動で作成します。
- 参考スコア(独自算出の注目度): 13.889284093852687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans rarely learn one fact in isolation. Instead, learning a new fact induces knowledge of other facts about the world. For example, in learning a korat is a type of cat, you also infer it is a mammal and has claws, ensuring your model of the world is consistent. Knowledge editing aims to inject new facts into language models to improve their factuality, but current benchmarks fail to evaluate consistency, which is critical to ensure efficient, accurate, and generalizable edits. We manually create TAXI, a new benchmark dataset specifically created to evaluate consistency. TAXI contains 11,120 multiple-choice queries for 976 edits spanning 41 categories (e.g., Dogs), 164 subjects (e.g., Labrador), and 183 properties (e.g., is a mammal). We then use TAXI to evaluate popular editors' consistency, measuring how often editing a subject's category appropriately edits its properties. We find that 1) the editors achieve marginal, yet non-random consistency, 2) their consistency far underperforms human baselines, and 3) consistency is more achievable when editing atypical subjects. Our code and data are available at https://github.com/derekpowell/taxi.
- Abstract(参考訳): 人間は一つの事実を単独で学ぶことは滅多にない。
代わりに、新しい事実を学ぶことは、世界に関する他の事実の知識を誘導する。
例えば、コラットを学習することは猫の一種であり、哺乳類であり、爪を持っていると推測し、世界のモデルが一貫していることを保証する。
知識編集は、言語モデルに新しい事実を注入して事実を改善することを目的としているが、現在のベンチマークでは一貫性の評価に失敗している。
私たちは、一貫性を評価するために特別に作られた新しいベンチマークデータセットであるTAXIを手動で作成します。
TAXIは、41のカテゴリー(例:犬)、164の被験者(例:ラブラドール)、183の特性(例:哺乳類)にまたがる976の編集のための11,120の多重選択クエリを含む。
次に、TAXIを用いて、一般的な編集者の一貫性を評価し、対象者のカテゴリが適切に編集される頻度を測定する。
私たちはそれを見つける。
1)編集者は、限界はあるが、非ランダムな一貫性を達成する。
2)その一貫性は人間の基準線をはるかに過小評価し、
3)非典型的対象の編集では一貫性が向上した。
私たちのコードとデータはhttps://github.com/derekpowell/taxi.comで公開されています。
関連論文リスト
- "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language
Models [19.068525916876023]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - Evaluating the Ripple Effects of Knowledge Editing in Language Models [47.6531309439867]
我々は5Kの事実編集の診断ベンチマークを行い、様々な種類のリップル効果を捉えた。
筆者らはRippleEdits上での顕著な編集手法の評価を行い、現在の手法がモデルの知識に一貫した変化を起こさないことを示す。
論文 参考訳(メタデータ) (2023-07-24T17:52:46Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions [80.69639629733484]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge [32.61883349110328]
エンティティ知識に関するコモンセンス推論のためのテストベッドであるCREAKを紹介する。
私たちのデータセットは、真か偽かのエンティティに関する13万の人間によるイングランドの主張で構成されています。
クラウドワーカーはこれらのステートメントを簡単に見つけ出すことができ、データセット上での人間のパフォーマンスは高い。
論文 参考訳(メタデータ) (2021-09-03T17:56:40Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。