論文の概要: Bias Vector: Mitigating Biases in Language Models with Task Arithmetic Approach
- arxiv url: http://arxiv.org/abs/2412.11679v1
- Date: Mon, 16 Dec 2024 11:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:35.420136
- Title: Bias Vector: Mitigating Biases in Language Models with Task Arithmetic Approach
- Title(参考訳): バイアスベクトル:タスク算術的アプローチによる言語モデルにおけるバイアスの緩和
- Authors: Daiki Shirafuji, Makoto Takenaka, Shinya Taguchi,
- Abstract要約: 本稿では,これらのLMバイアスを緩和するためのバイアスベクトル法を提案する。
提案手法の3つのステップは,(1) マスク言語モデルを用いて事前学習したLMをバイアス付きデータ上で連続的にトレーニングすること,(2) バイアス付きLMの重みと事前学習したLMの重みとの差としてバイアスベクトルを構築すること,(3) バイアス付きLMの重みからバイアスベクトルを減算すること,である。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License:
- Abstract: The use of language models (LMs) has increased considerably in recent years, and the biases and stereotypes in training data that are reflected in the LM outputs are causing social problems. In this paper, inspired by the task arithmetic, we propose the ``Bias Vector'' method for the mitigation of these LM biases. The Bias Vector method does not require manually created debiasing data. The three main steps of our approach involve: (1) continual training the pre-trained LMs on biased data using masked language modeling; (2) constructing the Bias Vector as the difference between the weights of the biased LMs and those of pre-trained LMs; and (3) subtracting the Bias Vector from the weights of the pre-trained LMs for debiasing. We evaluated the Bias Vector method on the SEAT across three LMs and confirmed an average improvement of 0.177 points. We demonstrated that the Bias Vector method does not degrade the LM performance on downstream tasks in the GLUE benchmark. In addition, we examined the impact of scaling factors, which control the magnitudes of Bias Vectors, with effect sizes on the SEAT and conducted a comprehensive evaluation of our debiased LMs across both the SEAT and GLUE benchmarks.
- Abstract(参考訳): 近年,言語モデル(LM)の利用が著しく増加し,LM出力に反映されるトレーニングデータのバイアスやステレオタイプが社会問題を引き起こしている。
本稿では,タスク演算に触発されて,これらのLMバイアスを軽減するために `Bias Vector'' 法を提案する。
Bias Vector メソッドは手動でデバイアスデータを作成する必要はない。
提案手法の3つのステップは,(1) マスク言語モデルを用いて事前学習したLMをバイアス付きデータ上で連続訓練すること,(2) バイアス付きLMの重みと事前学習したLMの重みとの差としてバイアスベクターを構築すること,(3) バイアス付きLMの重みからバイアスベクターを減算すること,である。
本研究は, 3つのLMでSEAT上のバイアスベクトル法を評価し, 平均0.177点の改善を確認した。
提案手法は,GLUEベンチマークにおいて,下流タスクにおけるLM性能を劣化させないことを示した。
さらに, バイアスベクトルの大きさを制御できるスケーリング因子がSEATに与える影響について検討し, SEATベンチマークとGLUEベンチマークの両方において, 劣化したLMの包括的評価を行った。
関連論文リスト
- Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Prompt-Based Bias Calibration for Better Zero/Few-Shot Learning of Language Models [7.089534153472173]
事前学習された言語モデルに符号化された固有バイアスを校正するヌルインプットプロンプト法を提案する。
本手法は,テキスト内学習とプロンプトベースファインタニングの両方において,LMのゼロ/ファインショット学習性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-15T22:54:24Z) - The Gaps between Pre-train and Downstream Settings in Bias Evaluation
and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。
ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文 参考訳(メタデータ) (2024-01-16T17:15:08Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - Debiasing Algorithm through Model Adaptation [5.482673673984126]
因果解析を行い、問題のあるモデル成分を同定し、フィードフォワードの中間層が最も偏りを伝達しやすいことを明らかにする。
解析結果に基づいて,これらの層の重み行列に線形射影を適用することにより,モデルに介入する。
提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
論文 参考訳(メタデータ) (2023-10-29T05:50:03Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。