論文の概要: Scalable Model Editing via Customized Expert Networks
- arxiv url: http://arxiv.org/abs/2404.02699v2
- Date: Thu, 8 Aug 2024 13:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:16:46.536719
- Title: Scalable Model Editing via Customized Expert Networks
- Title(参考訳): カスタマイズされたエキスパートネットワークによるスケーラブルなモデル編集
- Authors: Zihan Yao, Yu He, Tianyu Qi, Ming Li,
- Abstract要約: カスタマイズエキスパートネットワーク(SCEN)によるスケーラブルなモデル編集を導入する。
最初の段階では、更新が必要な知識ごとに、軽量の専門家ネットワークを個別にトレーニングします。
第2段階では、各専門家に対して対応する指標ニューロンを訓練し、その専門家の活性化状態を制御する。
- 参考スコア(独自算出の注目度): 10.211286961377942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the issues of hallucinations and outdated knowledge in large language models is critical for their reliable application. Model Editing presents a promising avenue for mitigating these challenges in a cost-effective manner. However, existing methods often suffer from unsatisfactory generalization and unintended effects on non-edited samples. To overcome these limitations, we introduce a novel approach: Scalable Model Editing via Customized Expert Networks (SCEN), which is a two-stage continuous training paradigm. Specifically, in the first stage, we train lightweight expert networks individually for each piece of knowledge that needs to be updated. Subsequently, we train a corresponding indexing neuron for each expert to control the activation state of that expert. We conducted a series of experiments on the ZsRE and Hallucination benchmarks by tuning the advanced open-source LLM, Llama2, achieving state-of-the-art results compared to current mainstream methods. Our code is available at https://github.com/TAL-auroraX/SCEN.
- Abstract(参考訳): 大規模な言語モデルにおける幻覚や時代遅れの知識の問題に対処することは、その信頼性の高い応用に不可欠である。
モデル編集は、これらの課題をコスト効率の良い方法で緩和するための有望な道を示す。
しかし、既存の手法は、しばしば不満足な一般化と非編集標本に対する意図しない影響に悩まされる。
このような制限を克服するために,2段階の継続的トレーニングパラダイムであるCustomized Expert Networks (SCEN)によるスケーラブルモデル編集という,新たなアプローチを導入する。
特に第1段階では、更新が必要な知識毎に、軽量な専門家ネットワークを個別にトレーニングします。
その後、各専門家に対して対応する指標ニューロンを訓練し、その専門家の活性化状態を制御する。
我々は、ZsREとHalucinationベンチマークの一連の実験を行い、先進的なオープンソースLLMであるLlama2をチューニングし、現在の主流手法と比較して最先端の結果を得た。
私たちのコードはhttps://github.com/TAL-auroraX/SCENで公開されています。
関連論文リスト
- Stealth edits for provably fixing or attacking large language models [76.53356051271014]
我々は,大規模言語モデルを編集するための新しい手法と理論基盤を明らかにする。
モデル編集可能性の評価や、悪意のある攻撃に対する感受性を明らかにするために、新しい理論をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - MPN: Leveraging Multilingual Patch Neuron for Cross-lingual Model
Editing [10.81072864833299]
本稿では,多言語パッチニューロンを訓練し,言語間知識を蓄積する簡易かつ効果的な方法を提案する。
既存のアプローチに容易に適応して、言語間編集機能を強化することができる。
論文 参考訳(メタデータ) (2024-01-06T10:40:24Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。