Fugu-MT 論文翻訳(概要): Towards Auditing Large Language Models: Improving Text-based Stereotype Detection

論文の概要: Towards Auditing Large Language Models: Improving Text-based Stereotype Detection

arxiv url: http://arxiv.org/abs/2311.14126v1
Date: Thu, 23 Nov 2023 17:47:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 16:38:10.868660
Title: Towards Auditing Large Language Models: Improving Text-based Stereotype Detection
Title（参考訳）: 大規模言語モデルへの展望:テキストに基づくステレオタイプ検出の改善
Authors: Wu Zekun, Sahan Bulathwela, Adriano Soares Koshiyama
Abstract要約: i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
参考スコア（独自算出の注目度）: 5.3634450268516565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLM) have made significant advances in the recent past becoming more mainstream in Artificial Intelligence (AI) enabled human-facing applications. However, LLMs often generate stereotypical output inherited from historical data, amplifying societal biases and raising ethical concerns. This work introduces i) the Multi-Grain Stereotype Dataset, which includes 52,751 instances of gender, race, profession and religion stereotypic text and ii) a novel stereotype classifier for English text. We design several experiments to rigorously test the proposed model trained on the novel dataset. Our experiments show that training the model in a multi-class setting can outperform the one-vs-all binary counterpart. Consistent feature importance signals from different eXplainable AI tools demonstrate that the new model exploits relevant text features. We utilise the newly created model to assess the stereotypic behaviour of the popular GPT family of models and observe the reduction of bias over time. In summary, our work establishes a robust and practical framework for auditing and evaluating the stereotypic bias in LLM.
Abstract（参考訳）: 大規模言語モデル(llm)は、ai(artificial intelligence, 人工知能)によって人間を対象とするアプリケーションにおいて、近年大きな進歩を遂げている。しかし、LLMは歴史的データから受け継いだステレオタイプ的な出力を生成し、社会的偏見を増幅し、倫理的関心を喚起する。この作品を紹介する一性別、人種、職業及び宗教のステレオタイプテキストの52,751例を含む多粒ステレオタイプデータセット二英語テキストの新規なステレオタイプ分類器そこで本研究では,新しいデータセットを用いてトレーニングしたモデルを提案する。実験では,マルチクラス環境でモデルのトレーニングが1-vs-allバイナリセットよりも優れることを示した。異なるeXplainable AIツールからの一貫性のある機能重要信号は、新しいモデルが関連するテキスト機能を利用することを示す。我々は,新たに作成されたモデルを用いて,一般的なGPTモデルのステレオタイプ行動を評価し,時間とともにバイアスの低減を観察する。まとめると,本研究はLLMのステレオタイプバイアスを監査・評価するための,堅牢で実用的な枠組みを確立している。

関連論文リスト

Stereotype Detection as a Catalyst for Enhanced Bias Detection: A Multi-Task Learning Approach [36.64093052736432]
言語モデルにおけるバイアスやステレオタイプは、特にコンテンツモデレーションや意思決定のようなセンシティブな領域で害をもたらす可能性がある。本稿では,これらの課題を共同学習することでモデル性能を高める方法を探ることで,バイアスとステレオタイプ検出に対処する。 StereoBiasは、宗教、性別、社会経済的地位、人種、職業など5つのカテゴリーにまたがってバイアスとステレオタイプ検出をラベル付けしたユニークなデータセットである。
論文参考訳（メタデータ） (2025-07-02T13:46:00Z)
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
On Fairness of Unified Multimodal Large Language Model for Image Generation [19.122441856516215]
最新のU-MLLMをベンチマークした結果、ほとんどの場合、性別や人種バイアスなど、大きな人口統計バイアスが示されることがわかった。我々の分析は、偏見は主に言語モデルに由来することを示している。本稿では、人口分布と合成データとのバランスをとるために、新しいバランスの取れた選好モデルを提案する。
論文参考訳（メタデータ） (2025-02-05T18:21:03Z)
REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。 LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文参考訳（メタデータ） (2024-08-18T14:08:31Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文参考訳（メタデータ） (2024-05-06T18:09:32Z)
Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文参考訳（メタデータ） (2024-04-02T09:31:32Z)
Evaluating Large Language Models through Gender and Racial Stereotypes [0.0]
質比較研究を行い、性別と人種の2種類の偏見を前提として、言語モデルを評価する枠組みを確立する。より古いモデルに比べて、新しいモデルでは男女の偏見が大幅に減少したが、人種の偏見は依然として存在する。
論文参考訳（メタデータ） (2023-11-24T18:41:16Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文参考訳（メタデータ） (2023-03-30T17:30:42Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文参考訳（メタデータ） (2022-04-25T23:53:53Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。