論文の概要: Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies
- arxiv url: http://arxiv.org/abs/2312.11779v3
- Date: Sat, 6 Apr 2024 09:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:46:19.032838
- Title: Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies
- Title(参考訳): トークン化の課題: ジェンダー包摂型言語技術のためのデータ・スカース・トークン化の旅
- Authors: Anaelia Ovalle, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei Chang, Richard Zemel, Aram Galstyan, Yuval Pinter, Rahul Gupta,
- Abstract要約: ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 75.85462924188076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gender-inclusive NLP research has documented the harmful limitations of gender binary-centric large language models (LLM), such as the inability to correctly use gender-diverse English neopronouns (e.g., xe, zir, fae). While data scarcity is a known culprit, the precise mechanisms through which scarcity affects this behavior remain underexplored. We discover LLM misgendering is significantly influenced by Byte-Pair Encoding (BPE) tokenization, the tokenizer powering many popular LLMs. Unlike binary pronouns, BPE overfragments neopronouns, a direct consequence of data scarcity during tokenizer training. This disparate tokenization mirrors tokenizer limitations observed in multilingual and low-resource NLP, unlocking new misgendering mitigation strategies. We propose two techniques: (1) pronoun tokenization parity, a method to enforce consistent tokenization across gendered pronouns, and (2) utilizing pre-existing LLM pronoun knowledge to improve neopronoun proficiency. Our proposed methods outperform finetuning with standard BPE, improving neopronoun accuracy from 14.1% to 58.4%. Our paper is the first to link LLM misgendering to tokenization and deficient neopronoun grammar, indicating that LLMs unable to correctly treat neopronouns as pronouns are more prone to misgender.
- Abstract(参考訳): ジェンダー非包括的NLP研究は、性差のある英語のネオプロノウン(eg , xe, zir, fae)を正しく使用できないなど、性差中心の大規模言語モデル(LLM)の有害な制限を文書化している。
データ不足は既知の原因であるが、この行動に悪影響を及ぼす正確なメカニズムは未解明のままである。
マイクロペア符号化(BPE)のトークン化によって,LLMの誤認識が著しく影響されていることが判明した。
二項代名詞とは異なり、BPEは新生代名詞をオーバーフラッグする。
この異種のトークン化は、多言語および低リソースのNLPで観測されるトークン化の制限を反映し、新しい誤った緩和戦略を解き放つ。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
提案手法は,14.1%から58.4%に改善した。
本論文は, LLMミスジェンダーをトークン化, 欠損した新生代名詞文法にリンクする最初の論文であり, 代名詞として新生代名詞を正しく扱うことができないLLMは, ミスジェンダーの傾向が強いことを示唆している。
関連論文リスト
- Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns [5.5514102920271196]
ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。
最近の評価では、英語のNLPシステムはジェンダーニュートラル代名詞を正しく処理できないことが示されている。
本稿では,オランダ語の男女中性代名詞に対する基準分解システムの性能について検討する。
論文 参考訳(メタデータ) (2024-04-30T18:31:19Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Welcome to the Modern World of Pronouns: Identity-Inclusive Natural
Language Processing beyond Gender [23.92148222207458]
自然言語処理における3人称代名詞問題の概要について概説する。
既存および新規なモデリング手法の評価を行う。
我々は、より差別のないアプローチが確立されたベンチマークデータに与える影響を定量化する。
論文 参考訳(メタデータ) (2022-02-24T06:42:11Z) - Generating Gender Augmented Data for NLP [3.5557219875516655]
ジェンダーバイアスは、NLPベースのアプリケーション、特に性差のある言語で頻繁に発生する。
本稿では,会話文の自動書き直し手法を提案する。
提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。
論文 参考訳(メタデータ) (2021-07-13T11:13:21Z) - First the worst: Finding better gender translations during beam search [19.921216907778447]
文法的ジェンダー翻訳における体系的誤りによるジェンダーバイアスに着目した。
ソース文から自動的に得られる性別特徴を用いて,nbestリストのランク付け実験を行った。
これらの技術を組み合わせることで、追加のバイリンガルデータや追加のNMTモデルを必要としないWinoMT精度が大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T12:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。