論文の概要: Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2501.13836v1
- Date: Thu, 23 Jan 2025 17:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:50.974982
- Title: Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages
- Title(参考訳): データから考える:低リソース言語のための自動モデレーションパイプラインにおける植民地的バイアスとシステム的問題
- Authors: Farhana Shahid, Mona Elswah, Aditya Vashistha,
- Abstract要約: 我々は、低リソース言語のためのモデレーションツールを構築する際に、AI研究者や実践者が直面する課題について検討する。
有害コンテンツの自動検出を専門とする22人のAI研究者と実践者を対象に半構造化インタビューを行った。
以上の結果から,研究者がデータにアクセスすることに対するソーシャルメディア企業の規制が,これらの言語の歴史的疎外化を悪化させることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.011117871938561
- License:
- Abstract: Most social media users come from non-English speaking countries in the Global South. Despite the widespread prevalence of harmful content in these regions, current moderation systems repeatedly struggle in low-resource languages spoken there. In this work, we examine the challenges AI researchers and practitioners face when building moderation tools for low-resource languages. We conducted semi-structured interviews with 22 AI researchers and practitioners specializing in automatic detection of harmful content in four diverse low-resource languages from the Global South. These are: Tamil from South Asia, Swahili from East Africa, Maghrebi Arabic from North Africa, and Quechua from South America. Our findings reveal that social media companies' restrictions on researchers' access to data exacerbate the historical marginalization of these languages, which have long lacked datasets for studying online harms. Moreover, common preprocessing techniques and language models, predominantly designed for data-rich English, fail to account for the linguistic complexity of low-resource languages. This leads to critical errors when moderating content in Tamil, Swahili, Arabic, and Quechua, which are morphologically richer than English. Based on our findings, we establish that the precarities in current moderation pipelines are rooted in deep systemic inequities and continue to reinforce historical power imbalances. We conclude by discussing multi-stakeholder approaches to improve moderation for low-resource languages.
- Abstract(参考訳): ほとんどのソーシャルメディアユーザーは、グローバル・サウスの英語以外の国から来ている。
これらの地域で有害なコンテンツが広く普及しているにもかかわらず、現在のモデレーションシステムは、そこで話される低リソース言語で何度も苦労している。
本研究では、低リソース言語のためのモデレーションツールを構築する際に、AI研究者や実践者が直面する課題について検討する。
我々は,グローバル・サウスから4つの多種多様な低リソース言語における有害なコンテンツの自動検出を専門とする,22人のAI研究者と実践者を対象に,半構造化インタビューを行った。
これらは南アジアのタミル語、東アフリカのスワヒリ語、北アフリカのマグレビ語、南アメリカのケチュア語である。
以上の結果から,研究者によるデータアクセスの制限が,これらの言語の歴史的限界化を悪化させることが明らかとなった。
さらに、データ豊富な英語向けに主に設計された一般的な前処理技術や言語モデルは、低リソース言語の言語的複雑さを考慮できない。
このことは、タミル語、スワヒリ語、アラビア語、ケチュア語の内容が英語よりも形態学的に豊かである場合に致命的な誤りを引き起こす。
以上の結果から,現在のモデレーションパイプラインにおける不平等は,深い体系的不平等に根付いており,歴史的電力不均衡の強化が続けられていることが判明した。
我々は、低リソース言語におけるモデレーションを改善するためのマルチステークホルダーアプローチについて論じる。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。
本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。
GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文 参考訳(メタデータ) (2024-11-18T05:41:27Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Detecting Social Media Manipulation in Low-Resource Languages [29.086752995321724]
悪意あるアクターは、低リソースのアクターを含む国や言語でコンテンツを共有します。
低リソース言語設定で悪意のあるアクターをどの程度検出できるかについて検討する。
テキスト埋め込みと転送学習を組み合わせることで,我々のフレームワークは,タガログに投稿する悪意のあるユーザを,有望な精度で検出することができる。
論文 参考訳(メタデータ) (2020-11-10T19:38:03Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。