論文の概要: Editing Common Sense in Transformers
- arxiv url: http://arxiv.org/abs/2305.14956v2
- Date: Mon, 9 Oct 2023 19:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:03:17.094274
- Title: Editing Common Sense in Transformers
- Title(参考訳): 変圧器における常識の編集
- Authors: Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong
Zhao, Xiang Lorraine Li, Sarah Wiegreffe, Niket Tandon
- Abstract要約: 本研究では,コモンセンス判断がトランスフォーマーの局所的・編集可能なパラメータと因果関係があるかどうかを検討する。
その結果,MEMIT 編集アルゴリズムを直接適用することでサブパー性能が向上し,コモンセンス領域での性能が向上することがわかった。
これらの結果は, 直接モデル編集により, 共通感覚に関するフィードバックをトランスフォーマーに組み込む上で, 魅力的な方向性を示唆している。
- 参考スコア(独自算出の注目度): 8.65582656677927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing model parameters directly in Transformers makes updating black-box
models possible without re-training (Meng et al., 2023). However, these editing
methods have only been evaluated on statements about encyclopedic knowledge
with a single correct answer. Commonsense knowledge with multiple correct
answers, e.g., an apple can be green or red but not transparent, has not been
studied but is as essential for enhancing transformers' reliability and
usefulness. In this paper, we investigate whether commonsense judgments are
causally associated with localized, editable parameters in Transformers, and we
provide an affirmative answer. We find that directly applying the MEMIT editing
algorithm results in sub-par performance and improve it for the commonsense
domain by varying edit tokens and improving the layer selection strategy, i.e.,
$MEMIT_{CSK}$. GPT-2 Large and XL models edited using $MEMIT_{CSK}$ outperform
best-fine-tuned baselines by 10.97% and 10.73% F1 scores on PEP3k and 20Q
datasets. In addition, we propose a novel evaluation dataset, PROBE SET, that
contains unaffected and affected neighborhoods, affected paraphrases, and
affected reasoning challenges. $MEMIT_{CSK}$ performs well across the metrics
while fine-tuning baselines show significant trade-offs between unaffected and
affected metrics. These results suggest a compelling future direction for
incorporating feedback about common sense into Transformers through direct
model editing.
- Abstract(参考訳): Transformersでモデルパラメータを直接編集することで、再トレーニングなしでブラックボックスモデルの更新が可能になる(Meng et al., 2023)。
しかし,これらの編集手法は,百科事典の知識を1つの正解で記述した上でのみ評価されている。
リンゴは緑か赤であるが透明ではないなど、複数の正解を持つ常識知識は研究されていないが、トランスフォーマーの信頼性と有用性を高めるのに不可欠である。
本稿では,コモンセンス判断が変圧器の局所化・編集可能なパラメータと因果関係にあるかどうかを調査し,肯定的な回答を与える。
我々は,MEMIT編集アルゴリズムを直接適用することにより,サブパー性能が向上し,コモンセンス領域の編集トークンが変化し,層選択戦略,すなわち$MEMIT_{CSK}$が向上することを発見した。
GPT-2 大規模なXLモデルは$MEMIT_{CSK}$で編集され、PEP3kと20Qデータセットで10.97%、F1スコアが10.73%向上した。
さらに, 影響を受けない地域, 影響のあるパラフレーズ, 影響のある推論課題を含む新しい評価データセット PROBE SET を提案する。
memit_{csk}$はメトリクス全体でうまく動作し、微調整されたベースラインは影響を受けないメトリクスと影響を受けるメトリクスの間の大きなトレードオフを示しています。
これらの結果は、直接モデル編集により、トランスフォーマーに常識に関するフィードバックを組み込むための説得力のある将来の方向性を示唆する。
関連論文リスト
- Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。
我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。
提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-04T10:17:40Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - MisRoB{\AE}RTa: Transformers versus Misinformation [0.6091702876917281]
本稿では,誤情報検出のためのトランスフォーマーに基づくニューラルアンサンブルアーキテクチャを提案する。
MisRobaerTaは、分類性能を改善するために、2つのトランスフォーマー(BARTとRoBERTa)を利用する。
トレーニングとテストのために、私たちは10のクラスでラベル付けされた大規模な現実世界のニュース記事データセットを使用しました。
論文 参考訳(メタデータ) (2023-04-16T12:14:38Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。