Fugu-MT 論文翻訳(概要): Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings

論文の概要: Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings

arxiv url: http://arxiv.org/abs/2411.16527v1
Date: Mon, 25 Nov 2024 16:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.86952
Title: Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings
Title（参考訳）: LLMにおけるプロファイリングバイアス:文脈語埋め込みにおけるステレオタイプ次元
Authors: Carolin M. Schuster, Maria-Alexandra Dinisor, Shashwat Ghatiwala, Georg Groh,
Abstract要約: 大規模言語モデル(LLM)は、人工知能(AI)の現在の成功の基礎である。リスクを効果的に伝達し、緩和努力を促進するために、これらのモデルは識別特性を適切に直感的に記述する必要がある。社会心理学研究の辞書に基づくステレオタイプ次元に関するバイアスプロファイルを提案する。
参考スコア（独自算出の注目度）: 1.5379084885764847
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are the foundation of the current successes of artificial intelligence (AI), however, they are unavoidably biased. To effectively communicate the risks and encourage mitigation efforts these models need adequate and intuitive descriptions of their discriminatory properties, appropriate for all audiences of AI. We suggest bias profiles with respect to stereotype dimensions based on dictionaries from social psychology research. Along these dimensions we investigate gender bias in contextual embeddings, across contexts and layers, and generate stereotype profiles for twelve different LLMs, demonstrating their intuition and use case for exposing and visualizing bias.
Abstract（参考訳）: 大規模言語モデル(LLM)は、現在の人工知能(AI)の成功の基盤であるが、それらは必然的にバイアスを受けている。リスクを効果的に伝達し、緩和努力を促進するために、これらのモデルには、AIのすべてのオーディエンスに適した、識別特性の適切かつ直感的な説明が必要である。社会心理学研究の辞書に基づくステレオタイプ次元に関するバイアスプロファイルを提案する。これらの次元に沿って、文脈的埋め込み、コンテキストや階層をまたいだ性別バイアスを調査し、12の異なるLCMのステレオタイププロファイルを生成し、その直観と使用例を示し、バイアスを露呈し視覚化する。

関連論文リスト

Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
From Structured Prompts to Open Narratives: Measuring Gender Bias in LLMs Through Open-Ended Storytelling [2.4374097382908477]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、社会的偏見を反映または増幅する傾向について懸念が持たれている。本研究では, LLMにおけるジェンダーバイアスを明らかにするための新たな評価枠組みを提案する。
論文参考訳（メタデータ） (2025-03-20T07:15:45Z)
Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文参考訳（メタデータ） (2025-01-29T05:21:31Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文参考訳（メタデータ） (2024-07-11T12:30:19Z)
Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文参考訳（メタデータ） (2024-05-23T13:35:34Z)
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文参考訳（メタデータ） (2024-05-06T18:09:32Z)
Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。条件生成に基づく間接探索フレームワークを提案する。 LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文参考訳（メタデータ） (2024-02-17T04:48:55Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Towards Auditing Large Language Models: Improving Text-based Stereotype Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文参考訳（メタデータ） (2023-11-23T17:47:14Z)
Probing Explicit and Implicit Gender Bias through LLM Conditional Text Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文参考訳（メタデータ） (2023-11-01T05:31:46Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)
Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models [17.90351661475405]
この研究は、テキストベースのバイアス分析手法を拡張し、マルチモーダル言語モデルを調べる。 VL-BERTが性別バイアスを示し、視覚シーンを忠実に表現するよりもステレオタイプを強化することを好むことが多いことを実証します。
論文参考訳（メタデータ） (2021-04-18T00:02:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。