Fugu-MT 論文翻訳(概要): Conceptor-Aided Debiasing of Large Language Models

論文の概要: Conceptor-Aided Debiasing of Large Language Models

arxiv url: http://arxiv.org/abs/2211.11087v3
Date: Mon, 30 Oct 2023 22:00:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 04:35:28.443529
Title: Conceptor-Aided Debiasing of Large Language Models
Title（参考訳）: 大規模言語モデルの概念支援型デバイアス
Authors: Li S. Yifei, Lyle Ungar, Jo\~ao Sedoc
Abstract要約: 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。提案手法は,(1)NOT操作による後処理によるバイアス部分空間の投影,(2)新しいアーキテクチャ,CI-BERT (Conceptor-intervened BERT) を提案する。
参考スコア（独自算出の注目度）: 1.0435741631709405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained large language models (LLMs) reflect the inherent social biases of their training corpus. Many methods have been proposed to mitigate this issue, but they often fail to debias or they sacrifice model accuracy. We use conceptors--a soft projection method--to identify and remove the bias subspace in LLMs such as BERT and GPT. We propose two methods of applying conceptors (1) bias subspace projection by post-processing by the conceptor NOT operation; and (2) a new architecture, conceptor-intervened BERT (CI-BERT), which explicitly incorporates the conceptor projection into all layers during training. We find that conceptor post-processing achieves state-of-the-art (SoTA) debiasing results while maintaining LLMs' performance on the GLUE benchmark. Further, it is robust in various scenarios and can mitigate intersectional bias efficiently by its AND operation on the existing bias subspaces. Although CI-BERT's training takes all layers' bias into account and can beat its post-processing counterpart in bias mitigation, CI-BERT reduces the language model accuracy. We also show the importance of carefully constructing the bias subspace. The best results are obtained by removing outliers from the list of biased words, combining them (via the OR operation), and computing their embeddings using the sentences from a cleaner corpus.
Abstract（参考訳）: 事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。この問題を軽減するために多くの方法が提案されているが、デビアスに失敗したり、モデルの精度を犠牲にしたりすることが多い。我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。提案手法は, コンセプタ非操作による後処理によるバイアス部分空間投影と, (2) トレーニング中のすべてのレイヤにコンセプタ投影を明示的に組み込む新しいアーキテクチャであるconceptor-intervened bert (ci-bert) を提案する。 GLUEベンチマークでは,LLMの性能を維持しつつ,最先端(SoTA)のデバイアス結果を実現する。さらに、様々なシナリオにおいてロバストであり、既存のバイアス部分空間上のAND演算により交差点バイアスを効率的に緩和することができる。 CI-BERTのトレーニングはすべてのレイヤのバイアスを考慮に入れ、バイアス軽減で後処理に勝てるが、CI-BERTは言語モデルの精度を低下させる。また,バイアス部分空間を慎重に構築することの重要性を示す。最善の結果は、偏りのある単語のリストから外れ値を削除し、それらを(or操作によって)組み合わせ、それらの埋め込みをよりクリーンなコーパスから計算することで得られる。

関連論文リスト

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts [29.864293711943038]
本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。 3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
論文参考訳（メタデータ） (2026-02-04T10:27:36Z)
Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-10-16T05:37:39Z)
Beneath the Surface: How Large Language Models Reflect Hidden Bias [7.026605828163043]
HBB(Hidden Bias Benchmark)は、現実のシナリオにおいて、バイアスの概念が自然主義的、微妙にフレーム化されたコンテキストの中に隠されていることの隠れバイアスを評価するために設計された、新しいデータセットである。我々は6つの最先端のLarge Language Modelを分析し、モデルが過度なバイアスに反応してバイアスを減らす一方で、ニュアンスドセッティングにおけるバイアスの強化を続けていることを明らかにした。
論文参考訳（メタデータ） (2025-02-27T04:25:54Z)
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文参考訳（メタデータ） (2024-12-02T16:56:08Z)
CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文参考訳（メタデータ） (2024-10-19T13:06:40Z)
Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文参考訳（メタデータ） (2024-08-20T07:40:12Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文参考訳（メタデータ） (2024-07-18T22:32:20Z)
Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文参考訳（メタデータ） (2024-03-27T17:49:31Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。 8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-01-02T14:12:41Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-02T20:31:58Z)
On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。 BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文参考訳（メタデータ） (2020-11-02T13:14:57Z)
Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文参考訳（メタデータ） (2020-05-10T17:56:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。