論文の概要: An Empirical Investigation of Gender Stereotype Representation in Large Language Models: The Italian Case
- arxiv url: http://arxiv.org/abs/2507.19156v1
- Date: Fri, 25 Jul 2025 10:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.926984
- Title: An Empirical Investigation of Gender Stereotype Representation in Large Language Models: The Italian Case
- Title(参考訳): 大規模言語モデルにおけるジェンダーステレオタイプ表現の実証的研究:イタリアの事例
- Authors: Gioele Giachino, Marco Rondina, Antonio Vetrò, Riccardo Coppola, Juan Carlos De Martin,
- Abstract要約: 本研究では,大規模言語モデルが無意味なプロンプトに対してどのように反応し,偏りのあるアウトプットに寄与するかを検討する。
その結果、LCMが生成したコンテンツがステレオタイプを永続化する方法が明らかになった。
AI生成テキストにおけるバイアスの存在は、職場や仕事の選択など、多くの分野に重大な影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 0.41942958779358674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of Large Language Models (LLMs) in a large variety of domains has sparked worries about how easily they can perpetuate stereotypes and contribute to the generation of biased content. With a focus on gender and professional bias, this work examines in which manner LLMs shape responses to ungendered prompts, contributing to biased outputs. This analysis uses a structured experimental method, giving different prompts involving three different professional job combinations, which are also characterized by a hierarchical relationship. This study uses Italian, a language with extensive grammatical gender differences, to highlight potential limitations in current LLMs' ability to generate objective text in non-English languages. Two popular LLM-based chatbots are examined, namely OpenAI ChatGPT (gpt-4o-mini) and Google Gemini (gemini-1.5-flash). Through APIs, we collected a range of 3600 responses. The results highlight how content generated by LLMs can perpetuate stereotypes. For example, Gemini associated 100% (ChatGPT 97%) of 'she' pronouns to the 'assistant' rather than the 'manager'. The presence of bias in AI-generated text can have significant implications in many fields, such as in the workplaces or in job selections, raising ethical concerns about its use. Understanding these risks is pivotal to developing mitigation strategies and assuring that AI-based systems do not increase social inequalities, but rather contribute to more equitable outcomes. Future research directions include expanding the study to additional chatbots or languages, refining prompt engineering methods or further exploiting a larger experimental base.
- Abstract(参考訳): さまざまなドメインにおけるLarge Language Models(LLM)の利用が増加し、ステレオタイプをいかに簡単に永続化し、バイアスのあるコンテンツの生成に貢献できるかという懸念が持ち上がった。
性別と専門的偏見に焦点をあてて、この研究はLLMが無意味なプロンプトに対する反応をどう形作るかを調べ、偏りのある出力に寄与する。
この分析は構造化された実験手法を用いて、3つの異なる専門職の組み合わせを含む異なるプロンプトを与える。
本研究は, 文法的男女差の大きいイタリア語を用いて, 英語以外の言語における客観的テキスト生成能力の潜在的な限界を明らかにする。
LLMベースのチャットボットとして,OpenAI ChatGPT(gpt-4o-mini)とGoogle Gemini(gemini-1.5-flash)の2つが人気である。
APIを通じて3600のレスポンスを収集しました。
その結果、LCMが生成したコンテンツがステレオタイプを永続化する方法が明らかになった。
例えば、ジェミニは100%(ChatGPT 97%)の 'she' の代名詞を "manager' ではなく 'assistant' に関連付けている。
AI生成テキストにおけるバイアスの存在は、職場や仕事の選択など、多くの分野において重要な意味を持つ可能性がある。
これらのリスクを理解することは、緩和戦略の開発と、AIベースのシステムが社会的不平等を増大させるのではなく、より公平な結果に寄与することを保証するために重要である。
今後の研究の方向性には、研究をチャットボットや言語に拡大すること、迅速なエンジニアリング手法の精錬、より大きな実験基盤の活用などが含まれる。
関連論文リスト
- Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages [51.96666324242191]
チャリティー広告作成タスクにおける新規筆記アシスタントのユーザ利用が、第2言語におけるAIの性能に影響を及ぼすかどうかを分析する。
我々は、これらのパターンが、生成したチャリティー広告の説得力に変換される程度を定量化する。
論文 参考訳(メタデータ) (2025-02-13T17:49:30Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。