論文の概要: Behemoth: Benchmarking Unlearning in LLMs Using Fully Synthetic Data
- arxiv url: http://arxiv.org/abs/2601.23153v1
- Date: Fri, 30 Jan 2026 16:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.562955
- Title: Behemoth: Benchmarking Unlearning in LLMs Using Fully Synthetic Data
- Title(参考訳): Behemoth: 完全な合成データを用いたLLMにおけるアンラーニングのベンチマーク
- Authors: Eugenia Iofinova, Dan Alistarh,
- Abstract要約: 実世界のデータに基づいて学習した大規模言語モデルに対するモデル編集の効果を理解するためのフレームワークであるBehemothを提案する。
例えば、いくつかのケースでは、現実世界の結果を反響させて、更新ランクを制限することで、より効果的な更新結果が得られることを示しています。
- 参考スコア(独自算出の注目度): 43.026389128544594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial neural networks, and specifically large language models, have improved rapidly in capabilities and quality, they have increasingly been deployed in real-world applications, from customer service to Google search, despite the fact that they frequently make factually incorrect or undesirable statements. This trend has inspired practical and academic interest in model editing, that is, in adjusting the weights of the model to modify its likely outputs for queries relating to a specific fact or set of facts. This may be done either to amend a fact or set of facts, for instance, to fix a frequent error in the training data, or to suppress a fact or set of facts entirely, for instance, in case of dangerous knowledge. Multiple methods have been proposed to do such edits. However, at the same time, it has been shown that such model editing can be brittle and incomplete. Moreover the effectiveness of any model editing method necessarily depends on the data on which the model is trained, and, therefore, a good understanding of the interaction of the training data distribution and the way it is stored in the network is necessary and helpful to reliably perform model editing. However, working with large language models trained on real-world data does not allow us to understand this relationship or fully measure the effects of model editing. We therefore propose Behemoth, a fully synthetic data generation framework. To demonstrate the practical insights from the framework, we explore model editing in the context of simple tabular data, demonstrating surprising findings that, in some cases, echo real-world results, for instance, that in some cases restricting the update rank results in a more effective update. The code is available at https://github.com/IST-DASLab/behemoth.git.
- Abstract(参考訳): 人工知能、特に大きな言語モデルは、能力と品質が急速に向上しているため、顧客サービスからGoogle検索まで、現実のアプリケーションにデプロイされることが増えている。
この傾向は、モデルの重みを調整して、特定の事実や事実の集合に関連するクエリの出力を変更することに、実用的および学術的な関心を惹き付けた。
これは、例えば、トレーニングデータの頻繁なエラーを修正するために、事実または事実のセットを修正するために、または、危険な知識の場合に、事実または事実のセットを完全に抑制するために行われる。
このような編集を行うために複数の方法が提案されている。
しかし同時に、そのようなモデル編集は脆く不完全であることが示されている。
さらに、モデル編集手法の有効性は、必ずしもモデルがトレーニングされたデータに依存するため、トレーニングデータ配信とネットワークに格納される方法の相互作用を十分に理解し、モデル編集を確実に行う必要がある。
しかし、実世界のデータに基づいて訓練された大規模言語モデルでは、この関係を理解したり、モデル編集の効果を十分に測定することはできない。
そこで我々は,完全合成データ生成フレームワークであるBehemothを提案する。
このフレームワークの実践的な洞察を実証するため、単純な表形式のデータという文脈でモデル編集を検証し、いくつかのケースでは現実世界の結果、例えば更新ランクの制限がより効果的な更新をもたらすという驚くべき結果を示す。
コードはhttps://github.com/IST-DASLab/behemoth.gitで公開されている。
関連論文リスト
- The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文 参考訳(メタデータ) (2024-10-03T12:28:13Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。