論文の概要: Do They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.00788v1
- Date: Fri, 01 Aug 2025 17:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.96939
- Title: Do They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Models
- Title(参考訳): 理解できるのか? : 大規模言語モデルにおける非二項代名詞処理に関する最新の評価
- Authors: Xushuo Tang, Yi Ding, Zhengyi Yang, Yin Chen, Yongrui Gu, Wenke Yang, Mingchen Ju, Xin Cao, Yongfei Liu, Wenjie Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、公正さと傾きが重要となるセンシティブな状況にますますデプロイされている。
代名詞の使用、特にジェンダーニュートラルやネオ代名詞は、AIの責任を負う上で重要な課題である。
LLMの代名詞忠実度を評価するための拡張および更新されたベンチマークであるMISGENDERED+を紹介する。
- 参考スコア(独自算出の注目度): 13.89598383847666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in sensitive contexts where fairness and inclusivity are critical. Pronoun usage, especially concerning gender-neutral and neopronouns, remains a key challenge for responsible AI. Prior work, such as the MISGENDERED benchmark, revealed significant limitations in earlier LLMs' handling of inclusive pronouns, but was constrained to outdated models and limited evaluations. In this study, we introduce MISGENDERED+, an extended and updated benchmark for evaluating LLMs' pronoun fidelity. We benchmark five representative LLMs, GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo, and Qwen2.5, across zero-shot, few-shot, and gender identity inference. Our results show notable improvements compared with previous studies, especially in binary and gender-neutral pronoun accuracy. However, accuracy on neopronouns and reverse inference tasks remains inconsistent, underscoring persistent gaps in identity-sensitive reasoning. We discuss implications, model-specific observations, and avenues for future inclusive AI research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、公正さと傾きが重要となるセンシティブな状況にますますデプロイされている。
代名詞の使用、特にジェンダーニュートラルやネオ代名詞は、AIの責任を負う上で重要な課題である。
MISGENDEREDベンチマークのような以前の研究は、初期のLLMにおける包括代名詞の扱いに重大な制限を課していたが、時代遅れのモデルや限られた評価に制限されていた。
本研究では,LLMの代名詞の忠実度を評価するための拡張および更新されたベンチマークであるMISGENDERED+を紹介する。
GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo, Qwen2.5の5つの代表的なLCMを、ゼロショット、少数ショット、性別同一性推論でベンチマークする。
以上の結果より,従来の研究と比較して,特に二分性・性中性代名詞の精度において顕著な改善が見られた。
しかし、新代名詞と逆推論タスクの精度は相容れないままであり、アイデンティティに敏感な推論における永続的なギャップを暗示している。
我々は、将来の包括的AI研究における意味、モデル固有の観察、および道について論じる。
関連論文リスト
- Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach [0.0]
大きな言語モデル(LLM)は、しばしば代名詞の用法においてバイアスを持続させ、キーア個人を誤って表現したり排除したりする。
本稿では、LLM出力における偏り付き代名詞の使用の特定の問題、特に伝統的性別付き代名詞の不適切な使用について論じる。
本稿では,これらのバイアスを軽減するための協調的エージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-12T09:14:16Z) - Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased? [26.583741801345507]
英語における代名詞の忠実度を測定するために,500万件以上のデータセットを提示する。
その結果, 代名詞の忠実度は, 人間が100%近い精度を達成できるような, 単純で自然主義的な環境では, 頑健ではないことがわかった。
論文 参考訳(メタデータ) (2024-04-04T01:07:14Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。