論文の概要: Potential and Challenges of Model Editing for Social Debiasing
- arxiv url: http://arxiv.org/abs/2402.13462v1
- Date: Wed, 21 Feb 2024 01:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:33:48.626073
- Title: Potential and Challenges of Model Editing for Social Debiasing
- Title(参考訳): 社会的嫌悪に対するモデル編集の可能性と課題
- Authors: Jianhao Yan, Futing Wang, Yafu Li, Yue Zhang
- Abstract要約: 巨大なコーパスで訓練された大言語モデル(LLM)は、避けられないステレオタイプバイアスに悩まされる。
これらのバイアスを微調整で緩和することは、費用もデータもかかる。
ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 20.186721346693577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained on vast corpora suffer from inevitable
stereotype biases. Mitigating these biases with fine-tuning could be both
costly and data-hungry. Model editing methods, which focus on modifying LLMs in
a post-hoc manner, are of great potential to address debiasing. However, it
lacks a comprehensive study that facilitates both internal and external model
editing methods, supports various bias types, as well as understands the pros
and cons of applying editing methods to stereotypical debiasing. To mitigate
this gap, we carefully formulate social debiasing into an editing problem and
benchmark seven existing model editing algorithms on stereotypical debiasing,
i.e., debias editing. Our findings in three scenarios reveal both the potential
and challenges of debias editing: (1) Existing model editing methods can
effectively preserve knowledge and mitigate biases, while the generalization of
debias effect from edited sentences to semantically equivalent sentences is
limited.(2) Sequential editing highlights the robustness of SERAC (Mitchell et
al. 2022b), while internal editing methods degenerate with the number of edits.
(3) Model editing algorithms achieve generalization towards unseen biases both
within the same type and from different types. In light of these findings, we
further propose two simple but effective methods to improve debias editing, and
experimentally show the effectiveness of the proposed methods.
- Abstract(参考訳): 巨大なコーパスで訓練された大言語モデル(LLM)は避けられないステレオタイプバイアスに悩まされる。
これらのバイアスを微調整で緩和することは、コストもデータもかかる。
ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。
しかし、内部モデルと外部モデルの両方の編集方法を容易にし、様々なバイアスタイプをサポートし、立体的デバイアスに編集方法を適用することの長所と短所を理解する包括的な研究が欠けている。
このギャップを緩和するために,ソーシャルデバイアスを編集問題に慎重に定式化し,既存の7つのモデル編集アルゴリズムをステレオタイプデバイアス,すなわちデバイアス編集にベンチマークする。
1)既存のモデル編集手法は知識を効果的に保存しバイアスを軽減することができ、一方,編集文から意味論的に等価な文へのデバイアス効果の一般化は限られている。
2) SERAC (Mitchell et al. 2022b) の堅牢性を強調し, 内部編集手法は編集回数に応じて劣化する。
3)モデル編集アルゴリズムは,同一タイプ内および異なるタイプからの未認識バイアスに対する一般化を実現する。
これらの結果を踏まえ,デビアス編集を改善するための2つの簡易かつ効果的な方法を提案し,提案手法の有効性を実験的に示した。
関連論文リスト
- Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。
インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。
その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文 参考訳(メタデータ) (2024-10-24T14:36:48Z) - Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文 参考訳(メタデータ) (2024-10-03T12:28:13Z) - Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? [61.68363765350178]
本稿では,モデル編集問題の標準的な定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。
まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。
次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。
論文 参考訳(メタデータ) (2024-06-27T17:33:03Z) - Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3 [2.569159339315845]
本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。
最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
論文 参考訳(メタデータ) (2024-05-01T17:50:37Z) - "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models [17.77377809345631]
モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。
具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。
編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
論文 参考訳(メタデータ) (2024-02-29T23:11:55Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。
検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T18:56:14Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。