論文の概要: AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings
- arxiv url: http://arxiv.org/abs/2011.01575v1
- Date: Tue, 3 Nov 2020 09:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:43:47.906765
- Title: AraWEAT: Multidimensional Analysis of Biases in Arabic Word Embeddings
- Title(参考訳): AraWEAT:アラビア語単語埋め込みにおけるビアーゼの多次元解析
- Authors: Anne Lauscher, Rafik Takieddin, Simone Paolo Ponzetto, and Goran
Glava\v{s}
- Abstract要約: 最近導入されたバイアステストの適用により,アラビア語単語の埋め込みにおけるバイアスの広範な分析を行う。
埋め込みモデル(Skip-Gram,CBOW,FastText)やベクトルサイズなど,複数の次元にまたがるバイアスの存在を測定する。
我々の分析は、アラビア語のニュースコーパスで訓練された埋め込みにおける暗黙の性別バイアスが時間とともに着実に増加するという、いくつかの興味深い発見をもたらす。
- 参考スコア(独自算出の注目度): 20.92135024440549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that distributional word vector spaces often encode
human biases like sexism or racism. In this work, we conduct an extensive
analysis of biases in Arabic word embeddings by applying a range of recently
introduced bias tests on a variety of embedding spaces induced from corpora in
Arabic. We measure the presence of biases across several dimensions, namely:
embedding models (Skip-Gram, CBOW, and FastText) and vector sizes, types of
text (encyclopedic text, and news vs. user-generated content), dialects
(Egyptian Arabic vs. Modern Standard Arabic), and time (diachronic analyses
over corpora from different time periods). Our analysis yields several
interesting findings, e.g., that implicit gender bias in embeddings trained on
Arabic news corpora steadily increases over time (between 2007 and 2017). We
make the Arabic bias specifications (AraWEAT) publicly available.
- Abstract(参考訳): 最近の研究によると、分布的な単語ベクトル空間は、しばしば性差別や人種差別のような人間のバイアスを符号化している。
本研究では,アラビア語のコーパスから誘導される様々な埋め込み空間に対して,最近導入されたバイアステストを適用し,アラビア語の単語埋め込みにおけるバイアスの広範囲な分析を行う。
複数の次元にわたるバイアス、すなわち、埋め込みモデル(スキップグラム、cbow、fasttext)、ベクターサイズ、テキストの種類(百科事典テキストとニュース対ユーザ生成コンテンツ)、方言(エジプト語アラビア語と現代標準アラビア語)、時間(異なる時期のコーパス上での2次解析)の存在を測定する。
我々の分析は、例えば、アラビアニュースコーパスで訓練された埋め込みにおいて、暗黙の性別バイアスが時間とともに着実に増加するという興味深い発見をもたらす(2007年から2017年まで)。
アラビアバイアス仕様(AraWEAT)を公開しています。
関連論文リスト
- Gender Bias in Text-to-Video Generation Models: A case study of Sora [63.064204206220936]
本研究では,OpenAIのテキスト・ビデオ生成モデルであるSoraにおけるジェンダーバイアスの存在について検討した。
性別ニュートラルとステレオタイププロンプトの多種多様なセットから生成されたビデオを分析し、バイアスの有意な証拠を明らかにした。
論文 参考訳(メタデータ) (2024-12-30T18:08:13Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z) - Effect of Word Embedding Variable Parameters on Arabic Sentiment
Analysis Performance [0.0]
Twitter、Facebookなどのソーシャルメディア。
ユーザーの意見を含むコメントの数が増加しています。
本研究は,アラビア語感情分析のための3つのパラメータ(ウィンドウサイズ,ベクトル次元,負サンプル)について考察する。
4つのバイナリ分類器(ロジスティック回帰、決定木、サポートベクターマシン、ネイブベイ)を使用して感情を検出する。
論文 参考訳(メタデータ) (2021-01-08T08:31:00Z) - Gender bias in magazines oriented to men and women: a computational
approach [58.720142291102135]
女性指向の雑誌の内容と男性指向の雑誌の内容を比較する。
トピック・モデリングの手法により、雑誌で議論されている主要なテーマを特定し、これらのトピックの存在が時間とともに雑誌間でどの程度異なるかを定量化する。
以上の結果から,セクシュアオブジェクトとしての家族,ビジネス,女性の出現頻度は,時間とともに消失する傾向にあることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T14:02:49Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。