論文の概要: Editing Commonsense Knowledge in GPT
- arxiv url: http://arxiv.org/abs/2305.14956v1
- Date: Wed, 24 May 2023 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:36:18.224697
- Title: Editing Commonsense Knowledge in GPT
- Title(参考訳): GPTにおける常識知識の編集
- Authors: Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong
Zhao, Xiang Lorraine Li, Sarah Wiegreffe, Niket Tandon
- Abstract要約: $MEMIT_CSK$は、GPT-2 LargeとXLの常識ミスを編集するためのMEMITの適応である。
MEMIT_CSK$で編集されたモデルは、PEP3kと20Qのサブセットで10.97%、F1スコアが10.73%の微調整ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 11.366212951812347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory editing methods for updating encyclopedic knowledge in transformers
have received increasing attention for their efficacy, specificity, and
generalization advantages. However, it remains unclear if such methods can be
adapted for the more nuanced domain of commonsense knowledge. We propose
$MEMIT_{CSK}$, an adaptation of MEMIT to edit commonsense mistakes in GPT-2
Large and XL. We extend editing to various token locations and employ a robust
layer selection strategy. Models edited by $MEMIT_{CSK}$ outperforms the
fine-tuning baselines by 10.97% and 10.73% F1 scores on subsets of PEP3k and
20Q. We further propose a novel evaluation dataset, MEMIT-CSK-PROBE, that
contains unaffected neighborhood, affected neighborhood, affected paraphrase,
and affected reasoning challenges. $MEMIT_{CSK}$ demonstrates favorable
semantic generalization, outperforming fine-tuning baselines by 13.72% and
5.57% overall scores on MEMIT-CSK-PROBE. These results suggest a compelling
future direction of incorporating context-specific user feedback concerning
commonsense in GPT by direct model editing, rectifying and customizing model
behaviors via human-in-the-loop systems.
- Abstract(参考訳): 変圧器における百科事典知識を更新するためのメモリ編集手法は、その有効性、特異性、一般化の利点に注目が集まっている。
しかし、そのような手法が常識知識のよりニュアンス的な領域に適応できるかは不明である。
GPT-2 Large および XL におけるコモンセンスミスを編集するための MEMIT の適応である $MEMIT_{CSK}$ を提案する。
さまざまなトークン場所への編集を拡張し、ロバストな層選択戦略を採用する。
MEMIT_{CSK}$で編集されたモデルは、PEP3kと20Qのサブセットで10.97%、F1スコアが10.73%の微調整ベースラインを上回っている。
さらに, 影響のない地域, 影響のある地域, 影響のあるパラフレーズ, 影響のある推論課題を含む新しい評価データセットMEMIT-CSK-PROBEを提案する。
$MEMIT_{CSK}$は、MEMIT-CSK-PROBEにおける微調整ベースラインを13.72%、総合スコア5.57%で上回るセマンティック一般化を示す。
これらの結果から,gptにおけるコモンセンスに関する文脈特異的ユーザフィードバックを,ヒューマン・イン・ザ・ループシステムによるモデル動作の編集,修正,カスタマイズによって取り入れる,今後の方向性が示唆された。
関連論文リスト
- Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。
我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。
提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-04T10:17:40Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - MisRoB{\AE}RTa: Transformers versus Misinformation [0.6091702876917281]
本稿では,誤情報検出のためのトランスフォーマーに基づくニューラルアンサンブルアーキテクチャを提案する。
MisRobaerTaは、分類性能を改善するために、2つのトランスフォーマー(BARTとRoBERTa)を利用する。
トレーニングとテストのために、私たちは10のクラスでラベル付けされた大規模な現実世界のニュース記事データセットを使用しました。
論文 参考訳(メタデータ) (2023-04-16T12:14:38Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。