論文の概要: AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings
- arxiv url: http://arxiv.org/abs/2011.01575v1
- Date: Tue, 3 Nov 2020 09:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:43:47.906765
- Title: AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings
- Title(参考訳): AraWEAT:アラビア語単語埋め込みにおけるビアーゼの多次元解析
- Authors: Anne Lauscher, Rafik Takieddin, Simone Paolo Ponzetto, and Goran
Glava\v{s}
- Abstract要約: 最近導入されたバイアステストの適用により,アラビア語単語の埋め込みにおけるバイアスの広範な分析を行う。
埋め込みモデル(Skip-Gram,CBOW,FastText)やベクトルサイズなど,複数の次元にまたがるバイアスの存在を測定する。
我々の分析は、アラビア語のニュースコーパスで訓練された埋め込みにおける暗黙の性別バイアスが時間とともに着実に増加するという、いくつかの興味深い発見をもたらす。
- 参考スコア(独自算出の注目度): 20.92135024440549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that distributional word vector spaces often encode
human biases like sexism or racism. In this work, we conduct an extensive
analysis of biases in Arabic word embeddings by applying a range of recently
introduced bias tests on a variety of embedding spaces induced from corpora in
Arabic. We measure the presence of biases across several dimensions, namely:
embedding models (Skip-Gram, CBOW, and FastText) and vector sizes, types of
text (encyclopedic text, and news vs. user-generated content), dialects
(Egyptian Arabic vs. Modern Standard Arabic), and time (diachronic analyses
over corpora from different time periods). Our analysis yields several
interesting findings, e.g., that implicit gender bias in embeddings trained on
Arabic news corpora steadily increases over time (between 2007 and 2017). We
make the Arabic bias specifications (AraWEAT) publicly available.
- Abstract(参考訳): 最近の研究によると、分布的な単語ベクトル空間は、しばしば性差別や人種差別のような人間のバイアスを符号化している。
本研究では,アラビア語のコーパスから誘導される様々な埋め込み空間に対して,最近導入されたバイアステストを適用し,アラビア語の単語埋め込みにおけるバイアスの広範囲な分析を行う。
複数の次元にわたるバイアス、すなわち、埋め込みモデル(スキップグラム、cbow、fasttext)、ベクターサイズ、テキストの種類(百科事典テキストとニュース対ユーザ生成コンテンツ)、方言(エジプト語アラビア語と現代標準アラビア語)、時間(異なる時期のコーパス上での2次解析)の存在を測定する。
我々の分析は、例えば、アラビアニュースコーパスで訓練された埋め込みにおいて、暗黙の性別バイアスが時間とともに着実に増加するという興味深い発見をもたらす(2007年から2017年まで)。
アラビアバイアス仕様(AraWEAT)を公開しています。
関連論文リスト
- White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Investigating Cross-Linguistic Gender Bias in Hindi-English Across
Domains [0.0]
我々はこのバイアスをヒンディー語で測定し研究することを目指しており、これは低階言語である英語に言及した高階言語である。
これを達成するために、ドメイン間のバリエーションを調査し、ドメイン埋め込みが、この2つのヒンディー語モデルに対するジェンダーバイアスについての洞察を得られるかどうかを定量化する。
論文 参考訳(メタデータ) (2021-11-22T12:55:36Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z) - Effect of Word Embedding Variable Parameters on Arabic Sentiment
Analysis Performance [0.0]
Twitter、Facebookなどのソーシャルメディア。
ユーザーの意見を含むコメントの数が増加しています。
本研究は,アラビア語感情分析のための3つのパラメータ(ウィンドウサイズ,ベクトル次元,負サンプル)について考察する。
4つのバイナリ分類器(ロジスティック回帰、決定木、サポートベクターマシン、ネイブベイ)を使用して感情を検出する。
論文 参考訳(メタデータ) (2021-01-08T08:31:00Z) - Gender bias in magazines oriented to men and women: a computational
approach [58.720142291102135]
女性指向の雑誌の内容と男性指向の雑誌の内容を比較する。
トピック・モデリングの手法により、雑誌で議論されている主要なテーマを特定し、これらのトピックの存在が時間とともに雑誌間でどの程度異なるかを定量化する。
以上の結果から,セクシュアオブジェクトとしての家族,ビジネス,女性の出現頻度は,時間とともに消失する傾向にあることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T14:02:49Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。