Fugu-MT 論文翻訳(概要): Consecutive Model Editing with Batch alongside HooK Layers

論文の概要: Consecutive Model Editing with Batch alongside HooK Layers

arxiv url: http://arxiv.org/abs/2403.05330v2
Date: Wed, 17 Apr 2024 07:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 18:41:31.828633
Title: Consecutive Model Editing with Batch alongside HooK Layers
Title（参考訳）: バッチとHooKレイヤを併用した連続モデル編集
Authors: Shuaiyi Li, Yang Deng, Deng Cai, Hongyuan Lu, Liang Chen, Wai Lam,
Abstract要約: COMEBA-HK は連続およびバッチをサポートするモデル編集方法である。重みを更新したいくつかのフック層を格納するためには、少量しか必要としないため、メモリフレンドリーである。
参考スコア（独自算出の注目度）: 59.673084839708224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the typical retraining paradigm is unacceptably time- and resource-consuming, researchers are turning to model editing in order to seek an effective, consecutive, and batch-supportive way to edit the model behavior directly. Despite all these practical expectations, existing model editing methods fail to realize all of them. Furthermore, the memory demands for such succession-supportive model editing approaches tend to be prohibitive, frequently necessitating an external memory that grows incrementally over time. To cope with these challenges, we propose COMEBA-HK, a model editing method that is both consecutive and batch-supportive. COMEBA-HK is memory-friendly as it only needs a small amount of it to store several hook layers with updated weights. Experimental results demonstrate the superiority of our method over other batch-supportive model editing methods under both single-round and consecutive batch editing scenarios. Extensive analyses of COMEBA-HK have been conducted to verify the stability of our method over 1) the number of consecutive steps and 2) the number of editing instance.
Abstract（参考訳）: 典型的なリトレーニングパラダイムは、許容できる時間とリソースを消費するので、研究者はモデル行動を直接編集する効果的な、連続的な、バッチをサポートする方法を求めるために、モデル編集に目を向けている。これらの現実的な期待にもかかわらず、既存のモデル編集手法はそれらすべてを実現することができない。さらに、継承サポート型モデル編集アプローチのメモリ要求は禁止されがちであり、時間とともに徐々に増大する外部メモリを必要とすることが多い。これらの課題に対処するため,COMEBA-HKというモデル編集手法を提案する。 COMEBA-HKはメモリフレンドリーで、いくつかのフック層を更新した重みで保存するために少量しか必要としない。実験により,本手法は単ラウンドおよび連続のバッチ編集シナリオにおいて,他のバッチ支援モデル編集手法よりも優れていることが示された。 COMEBA-HKの大規模解析を行い,本手法の安定性を検証した。 1) 連続段数及び連続段数 2) 編集インスタンスの数。

関連論文リスト

One for All: Update Parameterized Knowledge Across Multiple Models [35.137065486616805]
大きな言語モデル(LLM)は、膨大な世界の知識を符号化するが、最新の状態を維持するのに苦労し、しばしば誤りや幻覚を引き起こす。知識編集は、特定のモデルパラメータを更新することで、ターゲット変更を可能にする、リトレーニングの効果的な代替手段を提供する。編集モジュールとしてプラグインモデルを用いる新しいアンサンブルベースのアプローチである OnceEdit を提案する。
論文参考訳（メタデータ） (2025-06-01T03:48:54Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-10-05T05:52:22Z)
Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3 [2.569159339315845]
本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
論文参考訳（メタデータ） (2024-05-01T17:50:37Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.569159339315845]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文参考訳（メタデータ） (2024-01-15T03:57:15Z)
Edit at your own risk: evaluating the robustness of edited models to distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文参考訳（メタデータ） (2023-02-28T19:41:37Z)
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。 GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。 T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文参考訳（メタデータ） (2022-11-20T17:18:22Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)
Learning to Model Editing Processes [98.11448946134894]
本稿では、反復的にシーケンスを生成するプロセス全体をモデル化し、編集プロセスのモデリングを提案する。我々は、多段階編集の可能性を記述するための概念的枠組みを構築し、これらの多段階編集に基づいてシーケンスの生成モデルを学ぶことができるニューラルネットワークを記述する。
論文参考訳（メタデータ） (2022-05-24T21:32:52Z)
Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。 MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。 MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-21T17:41:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。