論文の概要: Integrating gender inclusivity into large language models via instruction tuning
- arxiv url: http://arxiv.org/abs/2508.18466v1
- Date: Mon, 25 Aug 2025 20:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.583234
- Title: Integrating gender inclusivity into large language models via instruction tuning
- Title(参考訳): インストラクションチューニングによる大規模言語モデルへのジェンダーインクリシティの統合
- Authors: Alina Wróblewska, Bartosz Żuk,
- Abstract要約: ポーランド語のテキストで訓練された大きな言語モデル(LLM)は、この男性的バイアスを継承し、強化し、男女不均衡な出力を生成する。
本研究は、人為的な性別非包括的証明読解命令の集合であるIPISデータセットを用いて、LSMをチューニングすることでこの問題に対処する。
実験では、IPIS-tune multilingual LLMs (Llama-8B, Mistral-7B, Mistral-Nemo) とポーランド固有のLLMs (Bielik anduM) が実験された。
- 参考スコア(独自算出の注目度): 0.3007949058551534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Imagine a language with masculine, feminine, and neuter grammatical genders, yet, due to historical and political conventions, masculine forms are predominantly used to refer to men, women and mixed-gender groups. This is the reality of contemporary Polish. A social consequence of this unfair linguistic system is that large language models (LLMs) trained on Polish texts inherit and reinforce this masculine bias, generating gender-imbalanced outputs. This study addresses this issue by tuning LLMs using the IPIS dataset, a collection of human-crafted gender-inclusive proofreading in Polish and Polish-to-English translation instructions. Grounded in a theoretical linguistic framework, we design a system prompt with explicit gender-inclusive guidelines for Polish. In our experiments, we IPIS-tune multilingual LLMs (Llama-8B, Mistral-7B and Mistral-Nemo) and Polish-specific LLMs (Bielik and PLLuM). Our approach aims to integrate gender inclusivity as an inherent feature of these models, offering a systematic solution to mitigate gender bias in Polish language generation.
- Abstract(参考訳): 男性、女性、中性的な文法のジェンダーを持つ言語を想像してみてください。しかし、歴史的、政治的慣習により、男性形は主に男性、女性、混合ジェンダーのグループを指すのに使われます。
これが現代のポーランドの現実である。
この不公平な言語体系の社会的帰結は、ポーランド語のテキストで訓練された大きな言語モデル(LLM)がこの男性的偏見を継承し、強化し、男女不均衡の出力を生成することである。
本研究は,ポーランド語・ポーランド語・英語翻訳における人造性非包括的証明の収集であるIPISデータセットを用いて,LLMをチューニングすることでこの問題に対処する。
理論的言語的枠組みを基礎として,ポーランドのジェンダー非包括的ガイドラインを明示したシステムプロンプトを設計する。
実験では,IPIS-tune multilingual LLM (Llama-8B,Mistral-7B,Mistral-Nemo) とポーランド固有のLLM (Bielik,PLLuM) について検討した。
ポーランド語生成におけるジェンダーバイアスを軽減するための体系的な解決策を提供する。
関連論文リスト
- Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language [21.87606488958834]
大規模言語モデル(LLM)における性別バイアス評価のためのドイツの5つのデータセットを提案する。
データセットは、ジェンダーバイアスというよく確立された概念に基づいており、複数の方法論を通してアクセス可能である。
8種類の多言語 LLM モデルで報告された本研究は,ドイツ語の性差にかかわる独特な課題を明らかにした。
論文 参考訳(メタデータ) (2025-07-22T13:09:41Z) - EuroGEST: Investigating gender stereotypes in multilingual language models [53.88459905621724]
大規模言語モデルはますます複数の言語をサポートするようになったが、ほとんどのベンチマークは英語中心のままである。
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - From 'Showgirls' to 'Performers': Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs [1.1049608786515839]
我々は、ジェンダー・インクリシティを促進するために、大規模言語モデル内の言語構造に適応する。
私たちの作品の焦点は英語の「In'show-Girl'」や「man-cave」のような男女排他的な接尾辞である。
論文 参考訳(メタデータ) (2024-07-05T11:31:30Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
大規模言語モデル(LLM)は、しばしば、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する。
性バイアスとは、特定の役割や特性と特定の性別の関連性である。
ジェンダー表現バイアスは、性別の異なる個人への参照の不平等な頻度である。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。