論文の概要: HebID: Detecting Social Identities in Hebrew-language Political Text
- arxiv url: http://arxiv.org/abs/2508.15483v1
- Date: Thu, 21 Aug 2025 12:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.308964
- Title: HebID: Detecting Social Identities in Hebrew-language Political Text
- Title(参考訳): HebID:ヘブライ語政治文における社会的アイデンティティの検出
- Authors: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav,
- Abstract要約: 我々は,ソーシャルアイデンティティ検出のための最初の多ラベルヘブライ語コーパスであるHebIDを紹介する。
マルチラベルおよびシングルラベルエンコーダを2B-9Bパラメータ生成型LLMとともにベンチマークし,ヘブライ語で調整したLLMが最良の結果をもたらすことを示した。
我々は、全国の公的な調査からアイデンティティの選択を利用し、エリートな談話で描かれたアイデンティティと一般のアイデンティティの優先順位の比較を可能にした。
- 参考スコア(独自算出の注目度): 1.3980986259786223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
- Abstract(参考訳): 政治的言語は社会的アイデンティティと深く絡み合っている。
社会的アイデンティティは特定の文化的文脈によって形成され、特定の言語の使用を通して表現されることが多いが、グループとアイデンティティ検出のための既存のデータセットは主に英語中心であり、シングルラベルであり、粗いアイデンティティカテゴリーに焦点を当てている。
イスラエルの政治家のFacebook投稿(2018年4月2021年4月)から5,536通、調査データに基づく12のニュアンスな社会的アイデンティティ(例えば、Rightist、Ultra-Orthodox、Socially-oriented)を手動で注釈付けした。
2B-9B パラメータ生成 LLM とともにマルチラベルおよびシングルラベルエンコーダをベンチマークし,ヘブライ語で調整した LLM が最良の結果(macro-$F_1$ = 0.74)を提供することを確認した。
我々は、政治家のFacebook投稿や議会演説に分類器を適用し、人気度、時間的傾向、クラスタリングパターン、性別に関連したアイデンティティ表現の変化を評価した。
我々は、全国の公的な調査からアイデンティティの選択を利用し、エリートな談話で描かれたアイデンティティと一般のアイデンティティの優先順位の比較を可能にした。
HebIDは、ヘブライ語における社会的アイデンティティを研究するための包括的な基盤を提供し、他の非英語の政治的文脈における同様の研究のモデルとして機能する。
関連論文リスト
- A Tale of Two Identities: An Ethical Audit of Human and AI-Crafted Personas [7.3656495945307086]
大規模言語モデル (LLMs) はデータ制限領域における合成ペルソナの生成にますます利用されている。
本稿では,3つのLSMが生成する合成ペルソナを表現的害のレンズを通して評価し,特に人種的アイデンティティに着目した。
以上の結果から, LLMは, 人種的マーカーに偏り, 文化的にコード化された言語を過剰に生成し, 構文的に精巧だが物語的に還元的なペルソナを構築できることが判明した。
これらのパターンは、ステレオタイピング、エキゾチック、消去、好ましくない偏見など、様々な社会技術的害をもたらす。
論文 参考訳(メタデータ) (2025-05-07T20:12:48Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - GIEBench: Towards Holistic Evaluation of Group Identity-based Empathy for Large Language Models [18.92131015111012]
大規模言語モデル(LLM)の共感評価のためのベンチマークであるGIEBenchを紹介する。
GIEBenchは11のアイデンティティディメンションを含み、97のグループアイデンティティをカバーする。
LLMを23個評価したところ、これらのLCMは異なるアイデンティティの観点から理解されているものの、これらの視点を採用するための明示的な指示なしでは、同一の共感を連続的に示さないことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T06:50:42Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Silver-Tongued and Sundry: Exploring Intersectional Pronouns with ChatGPT [25.5053022752019]
日本語の1人称代名詞によるアイデンティティシミュレーションの事例について検討した。
代名詞は、性別、年齢、地域、形式性の交点におけるChatGPTにおける社会的アイデンティティの認識を誘発する。
この研究は、社会的アイデンティティシミュレーションにおける代名詞の使用の重要性を強調し、文化に敏感なペルソナ開発のための言語ベースの方法論を提供し、知的エージェントにおける相互同一性の可能性を高める。
論文 参考訳(メタデータ) (2024-05-13T23:38:50Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - How Hate Speech Varies by Target Identity: A Computational Analysis [5.746505534720595]
ヘイトスピーチが対象とするアイデンティティに応じて体系的にどう変化するかを検討する。
対象のカテゴリーは、対象のアイデンティティグループの相対的な社会的力よりも、ヘイトスピーチの言語に強い影響を及ぼすと考えられる。
論文 参考訳(メタデータ) (2022-10-19T19:06:23Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。