論文の概要: Women, Infamous, and Exotic Beings: A Comparative Study of Honorific Usages in Wikipedia and LLMs for Bengali and Hindi
- arxiv url: http://arxiv.org/abs/2501.03479v4
- Date: Thu, 16 Oct 2025 08:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.276379
- Title: Women, Infamous, and Exotic Beings: A Comparative Study of Honorific Usages in Wikipedia and LLMs for Bengali and Hindi
- Title(参考訳): 女性、悪名高い、そしてエキゾチックな存在: ベンガル語とヒンディー語におけるウィキペディアの名誉使用とLLMの比較研究
- Authors: Sourabrata Mukherjee, Atharva Mehta, Sougata Saha, Akhil Arora, Monojit Choudhury,
- Abstract要約: 本研究は,ヒンディー語およびベンガル語ウィキペディアの3人称名誉代名詞と動詞使用に関する最初の大規模研究である。
系統的な言語内規則性は明らかだが,言語間差は顕著である。
両言語、特にヒンディー語では、男性は女性よりも敬意をもって扱われることが多い。
- 参考スコア(独自算出の注目度): 19.03496456010981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The obligatory use of third-person honorifics is a distinctive feature of several South Asian languages, encoding nuanced socio-pragmatic cues such as power, age, gender, fame, and social distance. In this work, (i) We present the first large-scale study of third-person honorific pronoun and verb usage across 10,000 Hindi and Bengali Wikipedia articles with annotations linked to key socio-demographic attributes of the subjects, including gender, age group, fame, and cultural origin. (ii) Our analysis uncovers systematic intra-language regularities but notable cross-linguistic differences: honorifics are more prevalent in Bengali than in Hindi, while non-honorifics dominate while referring to infamous, juvenile, and culturally exotic entities. Notably, in both languages, and more prominently in Hindi, men are more frequently addressed with honorifics than women. (iii) To examine whether large language models (LLMs) internalize similar socio-pragmatic norms, we probe six LLMs using controlled generation and translation tasks over 1,000 culturally balanced entities. We find that LLMs diverge from Wikipedia usage, exhibiting alternative preferences in honorific selection across tasks, languages, and socio-demographic attributes. These discrepancies highlight gaps in the socio-cultural alignment of LLMs and open new directions for studying how LLMs acquire, adapt, or distort social-linguistic norms. Our code and data are publicly available at https://github.com/souro/honorific-wiki-llm
- Abstract(参考訳): 第三者の名誉の義務的使用は、権力、年齢、性別、名声、社会的距離といった、社会的実践的なニュアンスをコードするいくつかの南アジアの言語の特徴である。
この作品。
一 ヒンディー語・ベンガル語ウィキペディアにおける三人称代名詞と動詞の活用について、性別、年齢、名声、文化起源など、主要な社会デマトグラフィー的属性に結びついた注釈を用いた最初の大規模研究を行った。
(II)本分析では,ベンガル語ではヒンディー語よりも敬語が一般的であり,非尊語では悪名,少年語,文化的な異国語が優勢である。
特にヒンディー語では、男性の方が女性よりも敬意をもって扱われることが多い。
3)大きな言語モデル(LLM)が類似の社会実践的規範を内包するかどうかを検討するため,1000以上の文化的バランスの取れたエンティティを制御した生成と翻訳タスクを用いて6つのLSMを探索する。
LLMはウィキペディアの用法から分岐し、タスク、言語、社会デコグラフィーの属性にまたがる名誉選択の選択肢を示す。
これらの違いは、LLMの社会的・文化的アライメントのギャップを浮き彫りにし、LLMが社会言語規範をどのように獲得、適応、歪曲するかを研究するための新しい方向を開く。
私たちのコードとデータはhttps://github.com/souro/honorific-wiki-llmで公開されています。
関連論文リスト
- Do Language Models Understand Honorific Systems in Javanese? [22.844712958358777]
ジャワ語は、話者、聞き手、参照者の社会的地位に応じて異なる、複雑な名誉体系を持つ。
本稿では,Unggah-Ungguh Basaのニュアンスをカプセル化したデータセットであるUnggah-Ungguhを紹介する。
論文 参考訳(メタデータ) (2025-02-28T09:05:35Z) - 'Since Lawyers are Males..': Examining Implicit Gender Bias in Hindi Language Generation by LLMs [4.021517742561241]
本研究はヒンディー語のテキスト生成における性差の暗黙的偏見を調査し,それを英語のそれと比較する。
以上の結果から, ヒンディー語では87.8%, 英語では33.4%であった。
この研究は、言語間での性別バイアスの変化を強調し、生成的AIシステムにおいてこれらのバイアスをナビゲートするための考察を提供する。
論文 参考訳(メタデータ) (2024-09-20T13:16:58Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Social Norms in Cinema: A Cross-Cultural Analysis of Shame, Pride and Prejudice [8.372104468081307]
10k以上の恥/処女関係の表現を横断的データセットとして紹介する。
我々は、アメリカとインドの既知の文化的傾向に沿った恥と誇りの表現において、異文化間の大きな違いを見出した。
論文 参考訳(メタデータ) (2024-02-17T17:05:17Z) - The Causal Influence of Grammatical Gender on Distributional Semantics [87.8027818528463]
言語間のジェンダー割り当てがどの程度意味を持つかは、言語学と認知科学における研究の活発な領域である。
我々は、名詞の文法的性別、意味、形容詞選択の間の相互作用を共同で表現する、新しい因果的グラフィカルモデルを提供する。
名詞の意味を制御した場合、文法的性別と形容詞的選択の関係は、ほぼゼロであり、無意味である。
論文 参考訳(メタデータ) (2023-11-30T13:58:13Z) - Analyzing Syntactic Generalization Capacity of Pre-trained Language
Models on Japanese Honorific Conversion [9.683269364766426]
事前訓練された大規模言語モデルが、人間のような日本人の名誉を柔軟に扱えるかどうかは不明である。
GPT-3の統語的一般化能力を検討するために,様々な文構造の問題テンプレートから日本語の敬称データセットを構築する。
以上の結果より, 微調整GPT-3は, プロンプトベースよりも, 文脈対応の名誉変換作業において優れていた。
論文 参考訳(メタデータ) (2023-06-05T17:27:48Z) - ChatGPT Perpetuates Gender Bias in Machine Translation and Ignores
Non-Gendered Pronouns: Findings across Bengali and Five other Low-Resource
Languages [2.5690340428649323]
ジェンダーニュートラル代名詞のみを用いた英語と言語間の翻訳におけるChatGPTの精度について検討する。
ChatGPTは、特定の職業に割り当てられた性別のデフォルトやステレオタイプを永続する。
我々は、ChatGPTがGoogle TranslateやMS Translatorのようなツールで実証されたのと同じ性別バイアスを示すと結論付けた。
論文 参考訳(メタデータ) (2023-05-17T18:30:05Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - A Moral- and Event- Centric Inspection of Gender Bias in Fairy Tales at
A Large Scale [50.92540580640479]
7つの文化から得られた624個の妖精物語を含む妖精物語データセットにおいて,ジェンダーバイアスを計算的に解析した。
その結果,男性キャラクターの数は女性キャラクターの2倍であり,男女表現が不均等であることが判明した。
女性キャラクターは、注意、忠誠、尊厳に関する道徳的な言葉とより関連しているのに対し、男性キャラクターは、公正、権威に関する道徳的な単語とより関連している。
論文 参考訳(メタデータ) (2022-11-25T19:38:09Z) - Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics [3.4048739113355215]
インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
論文 参考訳(メタデータ) (2022-06-07T15:35:10Z) - Mitigating Gender Stereotypes in Hindi and Marathi [1.2891210250935146]
本稿ではヒンディー語とマラティー語におけるジェンダーステレオタイプを評価する。
我々は、エンベディング・コヒーレンス・テスト(ECT)と相対ノルム距離(RND)の助けを借りて、中立的およびジェンダー化された職業語、感情語、および測定バイアスのデータセットを作成する。
実験の結果,提案手法は,これらの言語における性バイアスを減少させることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:46:53Z) - Socially Aware Bias Measurements for Hindi Language Representations [38.40818373580979]
偏見は、広く話されている地域の歴史と文化に基づいて、特定の言語表現に特有のものであることを示す。
我々は,言語表現のモデル化において,言語的・文法的アーティファクトとともに,社会認識の必要性を強調した。
論文 参考訳(メタデータ) (2021-10-15T05:49:15Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - On the Relationships Between the Grammatical Genders of Inanimate Nouns
and Their Co-Occurring Adjectives and Verbs [57.015586483981885]
我々は6つの異なるジェンダー言語で大規模コーパスを使用する。
名詞の文法的性別とそれらの名詞を直接対象、間接対象、主語とする動詞との間に統計的に有意な関連性を見出した。
論文 参考訳(メタデータ) (2020-05-03T22:49:44Z) - Predicting Declension Class from Form and Meaning [70.65971611552871]
クラスメンバーシップは決定論的には程遠いが、名詞と/またはその意味の音韻学的形式は、しばしば不完全な手がかりを与える。
我々は、どの程度の情報、ビットで、名詞の形式や意味を知ることの難しさを測ることによって、これを運用する。
2つのインド・ヨーロッパ語(チェコ語とドイツ語)がそれぞれ、大量の情報をクラスと共有していることがわかった。
論文 参考訳(メタデータ) (2020-05-01T21:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。