Fugu-MT 論文翻訳(概要): "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models

論文の概要: "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models

arxiv url: http://arxiv.org/abs/2403.00180v1
Date: Thu, 29 Feb 2024 23:11:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 18:45:56.812214
Title: "Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models
Title（参考訳）: "Flex Tape Can't Fix that": 編集言語モデルにおけるバイアスと誤報
Authors: Karina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut
Abstract要約: モデル編集手法は,編集後のモデルバイアスを予期せず増幅する方法について検討する。具体的には、人種、地理的起源、性別などの人口特性に関するバイアスに焦点を当てる。編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する信頼性が低下するにつれて、様々な程度にバイアスのかかる行動を示す。
参考スコア（独自算出の注目度）: 19.068525916876023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model editing has emerged as a cost-effective strategy to update knowledge stored in language models. However, model editing can have unintended consequences after edits are applied: information unrelated to the edits can also be changed, and other general behaviors of the model can be wrongly altered. In this work, we investigate how model editing methods unexpectedly amplify model biases post-edit. We introduce a novel benchmark dataset, Seesaw-CF, for measuring bias-related harms of model editing and conduct the first in-depth investigation of how different weight-editing methods impact model bias. Specifically, we focus on biases with respect to demographic attributes such as race, geographic origin, and gender, as well as qualitative flaws in long-form texts generated by edited language models. We find that edited models exhibit, to various degrees, more biased behavior as they become less confident in attributes for Asian, African, and South American subjects. Furthermore, edited models amplify sexism and xenophobia in text generations while remaining seemingly coherent and logical. Finally, editing facts about place of birth, country of citizenship, or gender have particularly negative effects on the model's knowledge about unrelated features like field of work.
Abstract（参考訳）: モデル編集は、言語モデルに格納された知識を更新するためのコスト効率の良い戦略として登場した。しかし、モデル編集は、編集に関係のない情報を変更したり、モデルの他の一般的な振る舞いを誤って変更したりすることで、意図しない結果をもたらす可能性がある。本研究では,モデル編集手法が不意にモデルバイアスを増幅する方法について検討する。本稿では,モデル編集のバイアス関連害を計測し,重み付け手法の違いがモデルバイアスに与える影響を初めて詳細に検討する,新たなベンチマークデータセットであるseesaw-cfを提案する。具体的には、人種、地理的起源、性別などの人口特性に関するバイアスと、編集された言語モデルによって生成される長文の質的欠陥に焦点を当てる。編集されたモデルは、アジア、アフリカ、および南米の被験者の属性に対する自信が薄れるにつれて、様々な程度に偏った行動を示すことがわかりました。さらに、編集されたモデルは、一見コヒーレントで論理的なまま、テキスト世代における性差別と異種恐怖症を増幅する。最後に、出生地、市民権国、性別に関する事実の編集は、特に労働分野のような無関係な特徴に関するモデルの知識に悪影響を及ぼす。

関連論文リスト

BiasEdit: Debiasing Stereotyped Language Models via Model Editing [40.57172805190225]
本稿では,言語モデルからステレオタイプバイアスを除去する効率的なモデル編集手法であるBiasEditを提案する。 BiasEditは、言語モデルの部分的なパラメータの局所的な編集を行うために、エディタネットワークをバイアスなく誘導する。 StereoSetとCrows-Pairsの実験はバイアス除去におけるBiasEditの有効性、効率、堅牢性を示している。
論文参考訳（メタデータ） (2025-03-11T16:25:36Z)
K-Edit: Language Model Editing with Contextual Knowledge Awareness [71.73747181407323]
知識に基づくモデル編集は、大きな言語モデルの重みを正確に修正することを可能にする。我々は、文脈的に一貫した知識編集を生成するための効果的なアプローチであるK-Editを提案する。
論文参考訳（メタデータ） (2025-02-15T01:35:13Z)
Should We Really Edit Language Models? On the Evaluation of Edited Language Models [15.63231238452797]
既存の編集手法は、一般的なベンチマークで必然的にパフォーマンスが低下する。インストラクションチューニングされたモデルは、編集がより堅牢で、編集後の一般的な知識に対するパフォーマンス低下が少ない。その結果,現在の編集手法は,言語モデル内の小規模な知識更新にのみ適していることがわかった。
論文参考訳（メタデータ） (2024-10-24T14:36:48Z)
Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文参考訳（メタデータ） (2024-10-03T12:28:13Z)
Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs? [61.68363765350178]
本稿では,モデル編集問題の標準的な定式化を批判し,モデル編集研究のための形式的テストベッドを提案する。まず,(1) 問題の定義,(2) ベンチマークの開発,(3) LLM がそもそも編集可能な信念を持っていることを前提として,モデル編集における12のオープンな問題について述べる。次に、Wikidataに基づくモデル編集のための半合成データセットを導入し、理想化されたベイズエージェントによって与えられるラベルに対する編集を評価する。
論文参考訳（メタデータ） (2024-06-27T17:33:03Z)
Potential and Challenges of Model Editing for Social Debiasing [20.186721346693577]
巨大なコーパスで訓練された大言語モデル(LLM)は、避けられないステレオタイプバイアスに悩まされる。これらのバイアスを微調整で緩和することは、費用もデータもかかる。ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-02-21T01:35:26Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.569159339315845]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文参考訳（メタデータ） (2024-01-15T03:57:15Z)
Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文参考訳（メタデータ） (2024-01-09T18:03:15Z)
Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文参考訳（メタデータ） (2023-01-10T21:26:08Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。