論文の概要: Building Representative Corpora from Illiterate Communities: A Review of
Challenges and Mitigation Strategies for Developing Countries
- arxiv url: http://arxiv.org/abs/2102.02841v1
- Date: Thu, 4 Feb 2021 19:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 17:32:19.794336
- Title: Building Representative Corpora from Illiterate Communities: A Review of
Challenges and Mitigation Strategies for Developing Countries
- Title(参考訳): Illiterate Communitiesによる代表コーパスの構築:開発途上国の課題と緩和戦略の概観
- Authors: Stephanie Hirmer, Alycia Leonard, Josephine Tumwesige, Costanza
Conforti
- Abstract要約: 本稿は,NLPコーパスにおける照明群落の表現不足に対処することを目的とする。
我々は、高い識字率の農村社会からデータを集める際に生じる潜在的なバイアスと倫理的問題を特定する。
- 参考スコア(独自算出の注目度): 1.6249267147413524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most well-established data collection methods currently adopted in NLP depend
on the assumption of speaker literacy. Consequently, the collected corpora
largely fail to represent swathes of the global population, which tend to be
some of the most vulnerable and marginalised people in society, and often live
in rural developing areas. Such underrepresented groups are thus not only
ignored when making modeling and system design decisions, but also prevented
from benefiting from development outcomes achieved through data-driven NLP.
This paper aims to address the under-representation of illiterate communities
in NLP corpora: we identify potential biases and ethical issues that might
arise when collecting data from rural communities with high illiteracy rates in
Low-Income Countries, and propose a set of practical mitigation strategies to
help future work.
- Abstract(参考訳): 現在NLPで採用されているデータ収集手法の多くは、話者リテラシーの仮定に依存する。
その結果、収集されたコーポラは、社会で最も脆弱で弱体化した人々の一部であり、しばしば農村開発地域に住む傾向にある世界の人口の誓いをほとんど表現できません。
このような控えめなグループは、モデリングやシステム設計の決定を行う際に無視されるだけでなく、データ駆動型NLPによって達成された開発成果の恩恵を受けることも妨げられる。
そこで本稿は,低所得国における非識字率の高い農村部コミュニティのデータを収集する際に生じる潜在的なバイアスと倫理的課題を特定し,今後の作業を支援するための実践的緩和策を提案する。
関連論文リスト
- Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Examining risks of racial biases in NLP tools for child protective
services [78.81107364902958]
児童保護サービス(CPS)に焦点をあてる。
この設定で確立された人種的偏見を考えると、NLPの展開は人種格差を増大させる可能性がある。
我々は、NERモデルにおける一貫したアルゴリズムの不公平性、コア参照解決モデルにおけるアルゴリズムの不公平性、およびリスク予測における人種バイアスの悪化の証拠を文書化している。
論文 参考訳(メタデータ) (2023-05-30T21:00:47Z) - Interpreting wealth distribution via poverty map inference using
multimodal data [0.0]
本稿では,複数の人口にまたがる富の平均および標準偏差を推論する機械学習モデルのパイプラインを提案する。
これらのモデルは、衛星画像と、オンラインのクラウドソーシングとソーシャルメディアを通じて収集されたメタデータに基づいて、7つの独立した、自由に利用可能な機能ソースを利用する。
その結果, 富の局所的平均と変動が回復し, 正の非単調な相関関係を正しく捉えた。
論文 参考訳(メタデータ) (2023-02-17T11:35:44Z) - Don't Patronize Me! An Annotated Dataset with Patronizing and
Condescending Language towards Vulnerable Communities [39.429915087526965]
我々は,NLPモデルの開発を支援するための注釈付きデータセットを導入し,脆弱なコミュニティを支援・支援する言語を識別・分類する。
提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
論文 参考訳(メタデータ) (2020-11-16T22:45:03Z) - Population Mapping in Informal Settlements with High-Resolution
Satellite Imagery and Equitable Ground-Truth [1.4414055798999759]
低所得都市部における密集集落の人口推定のための一般化可能な枠組みを提案する。
我々は,地域コミュニティと連携して収集される等質な地平データを用いている。
本研究では,フレキシブルでカスタマイズ可能な空間分解能を実現するグリッド型人口推定モデルを提案する。
論文 参考訳(メタデータ) (2020-09-17T16:37:32Z) - An Enhanced Text Classification to Explore Health based Indian
Government Policy Tweets [2.2082422928825136]
そこで本稿では,Twitter のさまざまな保健制度の分類を改良したテキスト分類フレームワークを提案する。
そこで我々は,新しいGloVe単語埋め込みとクラス固有の感情に基づくテキスト拡張手法(Mod-EDA)を提案する。
論文 参考訳(メタデータ) (2020-07-13T17:04:44Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z) - Natural language processing for achieving sustainable development: the
case of neural labelling to enhance community profiling [2.6734009991058794]
本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。
我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。
極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
論文 参考訳(メタデータ) (2020-04-27T16:51:21Z) - Inclusive GAN: Improving Data and Minority Coverage in Generative Models [101.67587566218928]
データカバレッジの1つとしてマイノリティー・インクルージョンの問題を定式化する。
次に、再構成世代と敵対的トレーニングを調和させることにより、データカバレッジを改善することを提案する。
我々は、モデルが確実に含めるべきマイノリティサブグループを明示的に制御できる拡張を開発する。
論文 参考訳(メタデータ) (2020-04-07T13:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。