Fugu-MT 論文翻訳(概要): Building Representative Corpora from Illiterate Communities: A Review of Challenges and Mitigation Strategies for Developing Countries

論文の概要: Building Representative Corpora from Illiterate Communities: A Review of Challenges and Mitigation Strategies for Developing Countries

arxiv url: http://arxiv.org/abs/2102.02841v1
Date: Thu, 4 Feb 2021 19:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-08 17:32:19.794336
Title: Building Representative Corpora from Illiterate Communities: A Review of Challenges and Mitigation Strategies for Developing Countries
Title（参考訳）: Illiterate Communitiesによる代表コーパスの構築:開発途上国の課題と緩和戦略の概観
Authors: Stephanie Hirmer, Alycia Leonard, Josephine Tumwesige, Costanza Conforti
Abstract要約: 本稿は,NLPコーパスにおける照明群落の表現不足に対処することを目的とする。我々は、高い識字率の農村社会からデータを集める際に生じる潜在的なバイアスと倫理的問題を特定する。
参考スコア（独自算出の注目度）: 1.6249267147413524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most well-established data collection methods currently adopted in NLP depend on the assumption of speaker literacy. Consequently, the collected corpora largely fail to represent swathes of the global population, which tend to be some of the most vulnerable and marginalised people in society, and often live in rural developing areas. Such underrepresented groups are thus not only ignored when making modeling and system design decisions, but also prevented from benefiting from development outcomes achieved through data-driven NLP. This paper aims to address the under-representation of illiterate communities in NLP corpora: we identify potential biases and ethical issues that might arise when collecting data from rural communities with high illiteracy rates in Low-Income Countries, and propose a set of practical mitigation strategies to help future work.
Abstract（参考訳）: 現在NLPで採用されているデータ収集手法の多くは、話者リテラシーの仮定に依存する。その結果、収集されたコーポラは、社会で最も脆弱で弱体化した人々の一部であり、しばしば農村開発地域に住む傾向にある世界の人口の誓いをほとんど表現できません。このような控えめなグループは、モデリングやシステム設計の決定を行う際に無視されるだけでなく、データ駆動型NLPによって達成された開発成果の恩恵を受けることも妨げられる。そこで本稿は,低所得国における非識字率の高い農村部コミュニティのデータを収集する際に生じる潜在的なバイアスと倫理的課題を特定し,今後の作業を支援するための実践的緩和策を提案する。

関連論文リスト

Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文参考訳（メタデータ） (2026-02-27T13:37:11Z)
Reply To: Global Gridded Population Datasets Systematically Underrepresent Rural Population by Josias Láng-Ritter et al [0.0]
この研究の主な主張は、あまりに大胆で、証拠によって適切に裏付けられず、慎重で曖昧な議論が欠如している。報告された偏見の数字は、地方住民の実際の過小評価によるものではなく、より議論の余地のある方法論的決定と、地域レベルでの歴史的人口推定によるものであると論じる。
論文参考訳（メタデータ） (2026-02-09T22:25:55Z)
Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文参考訳（メタデータ） (2025-02-27T15:07:47Z)
Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信ではミススペルがユビキタスになりました我々は科学的な問題としてミススペルの歴史を再構築する。 NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文参考訳（メタデータ） (2025-01-28T10:26:04Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文参考訳（メタデータ） (2024-03-14T15:58:36Z)
Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文参考訳（メタデータ） (2023-09-24T15:34:56Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Examining risks of racial biases in NLP tools for child protective services [78.81107364902958]
児童保護サービス(CPS)に焦点をあてる。この設定で確立された人種的偏見を考えると、NLPの展開は人種格差を増大させる可能性がある。我々は、NERモデルにおける一貫したアルゴリズムの不公平性、コア参照解決モデルにおけるアルゴリズムの不公平性、およびリスク予測における人種バイアスの悪化の証拠を文書化している。
論文参考訳（メタデータ） (2023-05-30T21:00:47Z)
Interpreting wealth distribution via poverty map inference using multimodal data [0.0]
本稿では,複数の人口にまたがる富の平均および標準偏差を推論する機械学習モデルのパイプラインを提案する。これらのモデルは、衛星画像と、オンラインのクラウドソーシングとソーシャルメディアを通じて収集されたメタデータに基づいて、7つの独立した、自由に利用可能な機能ソースを利用する。その結果, 富の局所的平均と変動が回復し, 正の非単調な相関関係を正しく捉えた。
論文参考訳（メタデータ） (2023-02-17T11:35:44Z)
Don't Patronize Me! An Annotated Dataset with Patronizing and Condescending Language towards Vulnerable Communities [39.429915087526965]
我々は,NLPモデルの開発を支援するための注釈付きデータセットを導入し,脆弱なコミュニティを支援・支援する言語を識別・分類する。提案したデータセットを解析した結果,標準NLPモデルではPCLの同定が困難であり,BERTなどの言語モデルが最適であることがわかった。
論文参考訳（メタデータ） (2020-11-16T22:45:03Z)
Population Mapping in Informal Settlements with High-Resolution Satellite Imagery and Equitable Ground-Truth [1.4414055798999759]
低所得都市部における密集集落の人口推定のための一般化可能な枠組みを提案する。我々は,地域コミュニティと連携して収集される等質な地平データを用いている。本研究では,フレキシブルでカスタマイズ可能な空間分解能を実現するグリッド型人口推定モデルを提案する。
論文参考訳（メタデータ） (2020-09-17T16:37:32Z)
An Enhanced Text Classification to Explore Health based Indian Government Policy Tweets [2.2082422928825136]
そこで本稿では,Twitter のさまざまな保健制度の分類を改良したテキスト分類フレームワークを提案する。そこで我々は,新しいGloVe単語埋め込みとクラス固有の感情に基づくテキスト拡張手法(Mod-EDA)を提案する。
論文参考訳（メタデータ） (2020-07-13T17:04:44Z)
Predicting Livelihood Indicators from Community-Generated Street-Level Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文参考訳（メタデータ） (2020-06-15T18:12:12Z)
Natural language processing for achieving sustainable development: the case of neural labelling to enhance community profiling [2.6734009991058794]
本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
論文参考訳（メタデータ） (2020-04-27T16:51:21Z)
Inclusive GAN: Improving Data and Minority Coverage in Generative Models [101.67587566218928]
データカバレッジの1つとしてマイノリティー・インクルージョンの問題を定式化する。次に、再構成世代と敵対的トレーニングを調和させることにより、データカバレッジを改善することを提案する。我々は、モデルが確実に含めるべきマイノリティサブグループを明示的に制御できる拡張を開発する。
論文参考訳（メタデータ） (2020-04-07T13:31:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。