論文の概要: MIST: Towards Multi-dimensional Implicit Bias and Stereotype Evaluation of LLMs via Theory of Mind
- arxiv url: http://arxiv.org/abs/2506.14161v1
- Date: Tue, 17 Jun 2025 03:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.318557
- Title: MIST: Towards Multi-dimensional Implicit Bias and Stereotype Evaluation of LLMs via Theory of Mind
- Title(参考訳): MIST:心の理論による多次元インシシトバイアスとLCMのステレオタイプ評価を目指して
- Authors: Yanlin Li, Hao Liu, Huimin Liu, Yinwei Wei, Yupeng Hu,
- Abstract要約: 大規模言語モデル(LLM)における心の理論 (ToM) とは、精神状態の推論能力を指す。
本稿では,Streotype Content Model (SCM) を応用して,能力,社会性,モラルの多次元的障害としてバイアスを再認識する評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.944371533106585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM) in Large Language Models (LLMs) refers to their capacity for reasoning about mental states, yet failures in this capacity often manifest as systematic implicit bias. Evaluating this bias is challenging, as conventional direct-query methods are susceptible to social desirability effects and fail to capture its subtle, multi-dimensional nature. To this end, we propose an evaluation framework that leverages the Stereotype Content Model (SCM) to reconceptualize bias as a multi-dimensional failure in ToM across Competence, Sociability, and Morality. The framework introduces two indirect tasks: the Word Association Bias Test (WABT) to assess implicit lexical associations and the Affective Attribution Test (AAT) to measure covert affective leanings, both designed to probe latent stereotypes without triggering model avoidance. Extensive experiments on 8 State-of-the-Art LLMs demonstrate our framework's capacity to reveal complex bias structures, including pervasive sociability bias, multi-dimensional divergence, and asymmetric stereotype amplification, thereby providing a more robust methodology for identifying the structural nature of implicit bias.
- Abstract(参考訳): 大規模言語モデル(LLM)における心の理論(ToM)は、精神状態について推論する能力を指すが、この能力の失敗はしばしば体系的な暗黙の偏見として表される。
従来の直接クエリ手法は社会的望ましくない影響を受けやすく、その微妙で多次元的な性質を捉えられないため、このバイアスを評価することは困難である。
そこで本研究では,Streotype Content Model (SCM) を利用した評価フレームワークを提案する。
このフレームワークは2つの間接的なタスクを導入している: 単語アソシエーションバイアステスト (WABT) は暗黙の語彙的関連性を評価するもので、AAT (Affective Attribution Test) は隠れた感情的傾きを測定する。
8つの状態のLLMに関する大規模な実験は、我々のフレームワークの複雑なバイアス構造を明らかにする能力を示しており、例えば、広汎な社会性バイアス、多次元のばらつき、非対称なステレオタイプ増幅、そして、暗黙のバイアスの構造的性質を特定するためのより堅牢な方法論を提供する。
関連論文リスト
- Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs [25.62533031580287]
大規模言語モデル(LLM)のバイアスは、その信頼性と公平性を著しく損なう。
モデルベクトル空間の構造に基づくテストセットのないバイアス分析フレームワークであるBiasLensを提案する。
論文 参考訳(メタデータ) (2025-05-21T13:50:23Z) - Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。
我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。
本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文 参考訳(メタデータ) (2025-03-12T19:01:41Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。