論文の概要: Are you talking to ['xem'] or ['x', 'em']? On Tokenization and
Addressing Misgendering in LLMs with Pronoun Tokenization Parity
- arxiv url: http://arxiv.org/abs/2312.11779v2
- Date: Thu, 21 Dec 2023 11:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:35:30.944966
- Title: Are you talking to ['xem'] or ['x', 'em']? On Tokenization and
Addressing Misgendering in LLMs with Pronoun Tokenization Parity
- Title(参考訳): あなたは ['xem'] か ['x', 'em'] と話していますか。
固有化パリティを持つLLMにおけるトークン化と対処ミス
- Authors: Anaelia Ovalle, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei
Chang, Richard Zemel, Aram Galstyan, Rahul Gupta
- Abstract要約: 代名詞のトークン化パリティ (PTP) は, トークンの機能的構造を保ち, 新生代名詞の誤認を減らすための新しいアプローチである。
代名詞の整合性に基づく尺度と新しい構文に基づく尺度を用いて,PTPの有効性を評価する。
- 参考スコア(独自算出の注目度): 79.41081292703352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large body of NLP research has documented the ways gender biases manifest
and amplify within large language models (LLMs), though this research has
predominantly operated within a gender binary-centric context. A growing body
of work has identified the harmful limitations of this gender-exclusive
framing; many LLMs cannot correctly and consistently refer to persons outside
the gender binary, especially if they use neopronouns. While data scarcity has
been identified as a possible culprit, the precise mechanisms through which it
influences LLM misgendering remain underexplored. Our work addresses this gap
by studying data scarcity's role in subword tokenization and, consequently, the
formation of LLM word representations. We uncover how the Byte-Pair Encoding
(BPE) tokenizer, a backbone for many popular LLMs, contributes to neopronoun
misgendering through out-of-vocabulary behavior. We introduce pronoun
tokenization parity (PTP), a novel approach to reduce LLM neopronoun
misgendering by preserving a token's functional structure. We evaluate PTP's
efficacy using pronoun consistency-based metrics and a novel syntax-based
metric. Through several controlled experiments, finetuning LLMs with PTP
improves neopronoun consistency from 14.5% to 58.4%, highlighting the
significant role tokenization plays in LLM pronoun consistency.
- Abstract(参考訳): 多くのnlp研究は、大規模な言語モデル(llm)の中でジェンダーバイアスが顕在化し、増幅する方法を文書化しているが、この研究は主にジェンダーのバイナリ中心の文脈で行われている。
多くのLDMは、特に新名詞を使用する場合、性別のバイナリ以外の人について正しく一貫して言及することはできない。
データ不足が原因として特定されているが、LSMの誤認に影響を及ぼす正確なメカニズムは未解明のままである。
我々の研究は、サブワードトークン化におけるデータ不足の役割を研究した結果、LLMワード表現の形成によって、このギャップに対処する。
Byte-Pair Encoding (BPE) トークンライザは,多くのLLMのバックボーンであり,語彙外動作によるニュープロノウン誤認識にどのように貢献するかを明らかにする。
代名詞トークン化パリティ (PTP) は, トークンの機能的構造を保ち, LLMネオプロノウン誤認を減らすための新しいアプローチである。
代名詞整合性に基づく尺度と新しい構文に基づく尺度を用いて,PTPの有効性を評価する。
いくつかの制御された実験を通じて、LPMをPTPで微調整することで、新生ニューロンの一貫性が14.5%から58.4%に向上し、LLM代名詞の一貫性において重要な役割を担っている。
関連論文リスト
- Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Evaluation of large language models using an Indian language LGBTI+
lexicon [3.2047868962340327]
大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T21:32:24Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Gender-specific Machine Translation with Large Language Models [34.308153581168874]
デコーダのみの大規模言語モデル(LLM)は機械翻訳(MT)の可能性を実証している
LLMはプロンプトを通じて出力のプロパティを制御する機能を提供する。
以上の結果から,LLaMaは競争精度と男女差を緩和した性別特化翻訳を生成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T17:24:06Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。