論文の概要: Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.19160v1
- Date: Wed, 26 Feb 2025 14:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:18.991740
- Title: Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたステレオタイプ評価のための言語指標の検出
- Authors: Rebekka Görge, Michael Mock, Héctor Allende-Cid,
- Abstract要約: 社会カテゴリーとステレオタイプは言語に埋め込まれており、大規模言語モデルにデータバイアスを導入することができる。
本稿では,文中のステレオタイプの言語指標を検出し,定量化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.9285295512807729
- License:
- Abstract: Social categories and stereotypes are embedded in language and can introduce data bias into Large Language Models (LLMs). Despite safeguards, these biases often persist in model behavior, potentially leading to representational harm in outputs. While sociolinguistic research provides valuable insights into the formation of stereotypes, NLP approaches for stereotype detection rarely draw on this foundation and often lack objectivity, precision, and interpretability. To fill this gap, in this work we propose a new approach that detects and quantifies the linguistic indicators of stereotypes in a sentence. We derive linguistic indicators from the Social Category and Stereotype Communication (SCSC) framework which indicate strong social category formulation and stereotyping in language, and use them to build a categorization scheme. To automate this approach, we instruct different LLMs using in-context learning to apply the approach to a sentence, where the LLM examines the linguistic properties and provides a basis for a fine-grained assessment. Based on an empirical evaluation of the importance of different linguistic indicators, we learn a scoring function that measures the linguistic indicators of a stereotype. Our annotations of stereotyped sentences show that these indicators are present in these sentences and explain the strength of a stereotype. In terms of model performance, our results show that the models generally perform well in detecting and classifying linguistic indicators of category labels used to denote a category, but sometimes struggle to correctly evaluate the associated behaviors and characteristics. Using more few-shot examples within the prompts, significantly improves performance. Model performance increases with size, as Llama-3.3-70B-Instruct and GPT-4 achieve comparable results that surpass those of Mixtral-8x7B-Instruct, GPT-4-mini and Llama-3.1-8B-Instruct.
- Abstract(参考訳): 社会カテゴリーとステレオタイプは言語に埋め込まれており、Large Language Models (LLM) にデータバイアスを導入することができる。
セーフガードにもかかわらず、これらのバイアスはしばしばモデル行動に持続し、出力の表現的害につながる可能性がある。
社会言語学的研究は、ステレオタイプの形成に関する貴重な洞察を提供するが、ステレオタイプ検出のためのNLPアプローチは、この基礎の上にほとんど引きずり出さず、しばしば客観性、精度、解釈可能性に欠ける。
このギャップを埋めるために,文中のステレオタイプの言語指標を検出し,定量化する手法を提案する。
本稿では,社会カテゴリー・ステレオタイプコミュニケーション(SCSC)フレームワークから言語指標を導出し,言語における強い社会カテゴリーの定式化とステレオタイピングを示し,それらを用いて分類体系を構築する。
このアプローチを自動化するために,テキスト内学習を用いて異なるLLMを指示して文に適用し,LLMが言語特性を調べ,きめ細かい評価の基盤を提供する。
異なる言語指標の重要性を実証的に評価し,ステレオタイプの言語指標を測定するスコアリング関数を学習する。
ステレオタイプ文のアノテーションは、これらの指標がこれらの文に存在することを示し、ステレオタイプの強さを説明する。
モデル性能の面では,カテゴリーラベルの言語指標の検出と分類において,モデルの性能は良好であるが,関連する行動や特徴の正確な評価に苦慮する場合がある。
プロンプト内でより少数の例を使用すると、パフォーマンスが大幅に向上する。
Llama-3.3-70B-インストラクトとGPT-4はMixtral-8x7B-インストラクト、GPT-4-mini、Llama-3.1-8B-インストラクトに匹敵する結果を得た。
関連論文リスト
- Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias [14.632649933582648]
人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。
社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文 参考訳(メタデータ) (2023-01-11T07:52:59Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。