論文の概要: Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2501.13836v3
- Date: Tue, 05 Aug 2025 17:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.770284
- Title: Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages
- Title(参考訳): データから考える:低リソース言語のための自動モデレーションパイプラインにおける植民地的バイアスとシステム的問題
- Authors: Farhana Shahid, Mona Elswah, Aditya Vashistha,
- Abstract要約: AIによるモデレーションシステムは、Global Southで話されている低リソース言語と競合する。
調査の結果,データ不足に加えて,IT企業によるユーザデータの独占といった社会的政治的要因が,歴史的不平等を悪化させることが明らかとなった。
これらの制限は、単に「データ不足」によって引き起こされる技術的なギャップであるだけでなく、非西洋語の植民地的抑圧に根ざした構造的不平等を反映している、と我々は主張する。
- 参考スコア(独自算出の注目度): 13.011117871938561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most social media users come from the Global South, where harmful content usually appears in local languages. Yet, AI-driven moderation systems struggle with low-resource languages spoken in these regions. Through semi-structured interviews with 22 AI experts working on harmful content detection in four low-resource languages: Tamil (South Asia), Swahili (East Africa), Maghrebi Arabic (North Africa), and Quechua (South America)--we examine systemic issues in building automated moderation tools for these languages. Our findings reveal that beyond data scarcity, socio-political factors such as tech companies' monopoly on user data and lack of investment in moderation for low-profit Global South markets exacerbate historic inequities. Even if more data were available, the English-centric and data-intensive design of language models and preprocessing techniques overlooks the need to design for morphologically complex, linguistically diverse, and code-mixed languages. We argue these limitations are not just technical gaps caused by "data scarcity" but reflect structural inequities, rooted in colonial suppression of non-Western languages. We discuss multi-stakeholder approaches to strengthen local research capacity, democratize data access, and support language-aware solutions to improve automated moderation for low-resource languages.
- Abstract(参考訳): ほとんどのソーシャルメディアユーザーはグローバル・サウス出身で、悪質なコンテンツは通常現地の言語で見られる。
しかし、AIによるモデレーションシステムは、これらの領域で話される低リソース言語と競合する。
タミル(南アジア)、スワヒリ(東アフリカ)、マグレビ(北アフリカ)、ケチュア(南アメリカ)の4つの低リソース言語で有害なコンテンツ検出に取り組んでいる22人のAI専門家との半構造化インタビューを通じて、これらの言語の自動モデレーションツールを構築する際のシステム的問題を検討した。
調査の結果,データ不足に加えて,IT企業のユーザデータ独占や低利益のグローバル・サウス市場へのモデレーション投資の欠如といった社会的政治的要因が,歴史的不平等を悪化させていることが明らかとなった。
たとえより多くのデータが利用可能であったとしても、言語モデルと前処理技術の英語中心でデータ中心の設計は、形態学的に複雑で言語学的に多様で、コード混合言語の設計の必要性を見落としている。
これらの制限は、単に「データ不足」によって引き起こされる技術的なギャップだけでなく、非西洋語の植民地的抑圧に根ざした構造的不平等を反映している、と我々は主張する。
ローカルな研究能力を強化し、データアクセスを民主化し、低リソース言語の自動モデレーションを改善するための言語対応ソリューションをサポートするマルチステークホルダーアプローチについて議論する。
関連論文リスト
- Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。
データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。
本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文 参考訳(メタデータ) (2025-04-23T11:29:10Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。
本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。
GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文 参考訳(メタデータ) (2024-11-18T05:41:27Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
誤報は言語境界を超越し、モデレーションシステムに挑戦する。
誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。
この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Detecting Social Media Manipulation in Low-Resource Languages [29.086752995321724]
悪意あるアクターは、低リソースのアクターを含む国や言語でコンテンツを共有します。
低リソース言語設定で悪意のあるアクターをどの程度検出できるかについて検討する。
テキスト埋め込みと転送学習を組み合わせることで,我々のフレームワークは,タガログに投稿する悪意のあるユーザを,有望な精度で検出することができる。
論文 参考訳(メタデータ) (2020-11-10T19:38:03Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。