論文の概要: Women, Infamous, and Exotic Beings: What Honorific Usages in Wikipedia Reflect on the Cross-Cultural Sociolinguistic Norms?
- arxiv url: http://arxiv.org/abs/2501.03479v3
- Date: Fri, 13 Jun 2025 13:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.399822
- Title: Women, Infamous, and Exotic Beings: What Honorific Usages in Wikipedia Reflect on the Cross-Cultural Sociolinguistic Norms?
- Title(参考訳): 女性、悪名高い、そしてエキゾチックな存在:ウィキペディアのどの名誉な用法が異文化の社会言語学のノルムを反映しているか?
- Authors: Sourabrata Mukherjee, Atharva Mehta, Soumya Teotia, Sougata Saha, Akhil Arora, Monojit Choudhury,
- Abstract要約: 名誉は社会的階層、礼儀正しい規範、文化的価値観を包含する。
ウィキペディアの編集ガイドラインは、そのような形式が文法的に、社会的に普及している言語での使用に関する明確な基準を欠いている。
本稿では,ヒンディー語およびベンガル語ウィキペディアの3人称代名詞と動詞の大規模分析を通じて,このギャップに対処する。
- 参考スコア(独自算出の注目度): 11.511991068833908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia, as a massively multilingual, community-driven platform, is a valuable resource for Natural Language Processing (NLP), yet the consistency of honorific usage in honorific-rich languages remains underexplored. Honorifics, subtle yet profound linguistic markers, encode social hierarchies, politeness norms, and cultural values, but Wikipedia's editorial guidelines lack clear standards for their usage in languages where such forms are grammatically and socially prevalent. This paper addresses this gap through a large-scale analysis of third-person honorific pronouns and verb forms in Hindi and Bengali Wikipedia articles. Using Large Language Models (LLM), we automatically annotate 10,000 articles per language for honorific usage and socio-demographic features such as gender, age, fame, and cultural origin. We investigate: (i) the consistency of honorific usage across articles, (ii) how inconsistencies correlate with socio-cultural factors, and (iii) the presence of explicit or implicit biases across languages. We find that honorific usage is consistently more common in Bengali than Hindi, while non-honorific forms are more frequent for infamous, juvenile, and exotic entities in both. Notably, gender bias emerges in both languages, particularly in Hindi, where men are more likely to receive honorifics than women. Our analysis highlights the need for Wikipedia to develop language-specific editorial guidelines for honorific usage.
- Abstract(参考訳): ウィキペディアは、多言語でコミュニティ主導のプラットフォームであり、自然言語処理(NLP)にとって貴重な資源である。
社会的階層、丁寧な規範、文化的価値をコード化しているが、ウィキペディアの編集ガイドラインは、そのような形式が文法的かつ社会的に普及している言語における彼らの使用に関する明確な基準を欠いている。
本稿では,ヒンディー語およびベンガル語ウィキペディアの3人称代名詞と動詞の大規模分析を通じて,このギャップに対処する。
大規模言語モデル (LLM) を用いて1言語あたり1万記事の自動注釈を行い, ジェンダー, 年齢, 名声, 文化起源などの社会デマグラフィー的特徴について考察した。
調査する。
一 物品の名誉使用の整合性
(二)不整合が社会文化的要因とどのように相関するか、及び
(三)言語にまたがる明示的または暗黙的な偏見の存在。
名誉な用法はヒンディー語よりもベンガル語で一貫して一般的であるが、非名誉な形式は悪名高い、若々しい、エキゾチックな実体に対してより頻繁に見られる。
特にヒンディー語では、男性は女性よりも名誉を受ける傾向にある。
本分析は、ウィキペディアが名誉使用のための言語固有の編集ガイドラインを開発する必要性を強調している。
関連論文リスト
- Do Language Models Understand Honorific Systems in Javanese? [22.844712958358777]
ジャワ語は、話者、聞き手、参照者の社会的地位に応じて異なる、複雑な名誉体系を持つ。
本稿では,Unggah-Ungguh Basaのニュアンスをカプセル化したデータセットであるUnggah-Ungguhを紹介する。
論文 参考訳(メタデータ) (2025-02-28T09:05:35Z) - 'Since Lawyers are Males..': Examining Implicit Gender Bias in Hindi Language Generation by LLMs [4.021517742561241]
本研究はヒンディー語のテキスト生成における性差の暗黙的偏見を調査し,それを英語のそれと比較する。
以上の結果から, ヒンディー語では87.8%, 英語では33.4%であった。
この研究は、言語間での性別バイアスの変化を強調し、生成的AIシステムにおいてこれらのバイアスをナビゲートするための考察を提供する。
論文 参考訳(メタデータ) (2024-09-20T13:16:58Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Social Norms in Cinema: A Cross-Cultural Analysis of Shame, Pride and Prejudice [8.372104468081307]
10k以上の恥/処女関係の表現を横断的データセットとして紹介する。
我々は、アメリカとインドの既知の文化的傾向に沿った恥と誇りの表現において、異文化間の大きな違いを見出した。
論文 参考訳(メタデータ) (2024-02-17T17:05:17Z) - The Causal Influence of Grammatical Gender on Distributional Semantics [87.8027818528463]
言語間のジェンダー割り当てがどの程度意味を持つかは、言語学と認知科学における研究の活発な領域である。
我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。
名詞の意味を制御した場合、文法的性別と形容詞的選択の関係は、ほぼゼロであり、無意味である。
論文 参考訳(メタデータ) (2023-11-30T13:58:13Z) - ChatGPT Perpetuates Gender Bias in Machine Translation and Ignores
Non-Gendered Pronouns: Findings across Bengali and Five other Low-Resource
Languages [2.5690340428649323]
ジェンダーニュートラル代名詞のみを用いた英語と言語間の翻訳におけるChatGPTの精度について検討する。
ChatGPTは、特定の職業に割り当てられた性別のデフォルトやステレオタイプを永続する。
我々は、ChatGPTがGoogle TranslateやMS Translatorのようなツールで実証されたのと同じ性別バイアスを示すと結論付けた。
論文 参考訳(メタデータ) (2023-05-17T18:30:05Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - A Moral- and Event- Centric Inspection of Gender Bias in Fairy Tales at
A Large Scale [50.92540580640479]
7つの文化から得られた624個の妖精物語を含む妖精物語データセットにおいて,ジェンダーバイアスを計算的に解析した。
その結果,男性キャラクターの数は女性キャラクターの2倍であり,男女表現が不均等であることが判明した。
女性キャラクターは、注意、忠誠、尊厳に関する道徳的な言葉とより関連しているのに対し、男性キャラクターは、公正、権威に関する道徳的な単語とより関連している。
論文 参考訳(メタデータ) (2022-11-25T19:38:09Z) - Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics [3.4048739113355215]
インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
論文 参考訳(メタデータ) (2022-06-07T15:35:10Z) - Socially Aware Bias Measurements for Hindi Language Representations [38.40818373580979]
偏見は、広く話されている地域の歴史と文化に基づいて、特定の言語表現に特有のものであることを示す。
我々は,言語表現のモデル化において,言語的・文法的アーティファクトとともに,社会認識の必要性を強調した。
論文 参考訳(メタデータ) (2021-10-15T05:49:15Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - On the Relationships Between the Grammatical Genders of Inanimate Nouns
and Their Co-Occurring Adjectives and Verbs [57.015586483981885]
我々は6つの異なるジェンダー言語で大規模コーパスを使用する。
名詞の文法的性別とそれらの名詞を直接対象、間接対象、主語とする動詞との間に統計的に有意な関連性を見出した。
論文 参考訳(メタデータ) (2020-05-03T22:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。