論文の概要: A methodology to characterize bias and harmful stereotypes in natural
language processing in Latin America
- arxiv url: http://arxiv.org/abs/2207.06591v3
- Date: Tue, 28 Mar 2023 21:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 19:03:08.026593
- Title: A methodology to characterize bias and harmful stereotypes in natural
language processing in Latin America
- Title(参考訳): ラテンアメリカの自然言語処理におけるバイアスと有害なステレオタイプを特徴付ける手法
- Authors: Laura Alonso Alemany, Luciana Benotti, Hern\'an Maina, Luc\'ia
Gonz\'alez, Mariela Rajngewerc, Lautaro Mart\'inez, Jorge S\'anchez, Mauro
Schilman, Guido Ivetta, Alexia Halvorsen, Amanda Mata Rojo, Mat\'ias Bordone,
Beatriz Busaniche
- Abstract要約: 社会科学者、ドメインの専門家、機械学習の専門家が、単語の埋め込みや大きな言語モデルにおいて、バイアスや有害なステレオタイプを共同で探求する方法について説明している。
我々の方法論は以下の原則に基づいている。
- 参考スコア(独自算出の注目度): 2.05094736006609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated decision-making systems, especially those based on natural language
processing, are pervasive in our lives. They are not only behind the internet
search engines we use daily, but also take more critical roles: selecting
candidates for a job, determining suspects of a crime, diagnosing autism and
more. Such automated systems make errors, which may be harmful in many ways, be
it because of the severity of the consequences (as in health issues) or because
of the sheer number of people they affect. When errors made by an automated
system affect a population more than others, we call the system
\textit{biased}.
Most modern natural language technologies are based on artifacts obtained
from enormous volumes of text using machine learning, namely language models
and word embeddings. Since they are created by applying subsymbolic machine
learning, mostly artificial neural networks, they are opaque and practically
uninterpretable by direct inspection, thus making it very difficult to audit
them.
In this paper, we present a methodology that spells out how social
scientists, domain experts, and machine learning experts can collaboratively
explore biases and harmful stereotypes in word embeddings and large language
models. Our methodology is based on the following principles:
* focus on the linguistic manifestations of discrimination on word embeddings
and language models, not on the mathematical properties of the models * reduce
the technical barrier for discrimination experts%, be it social scientists,
domain experts or other * characterize through a qualitative exploratory
process in addition to a metric-based approach * address mitigation as part of
the training process, not as an afterthought
- Abstract(参考訳): 自動意思決定システム、特に自然言語処理に基づくシステムは、私たちの生活に浸透しています。
それらは、毎日使っているインターネット検索エンジンの背後にあるだけでなく、仕事の候補者の選択、犯罪の容疑者の特定、自閉症の診断など、より重要な役割も担っている。
このような自動システムは、多くの点で有害なエラーを発生させるが、それは(健康上の問題のように)結果の重大さや、影響する人の数が多いためである。
自動システムによるエラーが他のシステムよりも人口に影響を与える場合、システムを「textit{biased}」と呼ぶ。
現代の自然言語技術のほとんどは、機械学習、すなわち言語モデルと単語埋め込みを用いて大量のテキストから得られた人工物に基づいている。
サブシンボリック機械学習(主に人工知能ニューラルネットワーク)を適用することで生成されるため、直接検査によって不透明で事実上解釈できないため、監査は非常に困難である。
本稿では,社会科学者,ドメイン専門家,機械学習の専門家が,単語埋め込みや大規模言語モデルにおいて,バイアスや有害なステレオタイプを協調的に探究する手法を提案する。
我々の方法論は以下の原則に基づいている: * 単語埋め込みと言語モデルに対する差別の言語的表現に焦点をあてる モデルの数学的性質ではなく、モデルの数学的特性に焦点をあてる * 差別専門家の技術的な障壁を減らす % 社会科学者、ドメインエキスパート、その他は、計量に基づくアプローチに加えて、定性的探索プロセスを通じて特徴づける * 後述のプロセスとしてではなく、トレーニングプロセスの一部としてのアドレス緩和に対処する
関連論文リスト
- Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - National Origin Discrimination in Deep-learning-powered Automated Resume
Screening [3.251347385432286]
多くの企業や組織は、採用プロセスを支援するために、ある種のAI対応のオートマットツールを使い始めています。
AIシステムの根底にあるバイアスによって、候補者に対する不公平な扱いが懸念されている。
本研究では,近年の技術革新である深層学習手法について検討し,自動再開検診への応用に焦点をあてた。
論文 参考訳(メタデータ) (2023-07-13T01:35:29Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Language technology practitioners as language managers: arbitrating data
bias and predictive bias in ASR [0.0]
我々は、言語政策のレンズを使用して、業界におけるASRシステムのトレーニングとテストの現在の実践が、これらの体系的なエラーの違いをもたらすデータバイアスにどのように結びつくかを分析する。
我々は,言語資源の再フレーミングを,市場だけでなく,言論コミュニティの有意義な協力のもとに設計すべき(公的な)基盤として提案する。
論文 参考訳(メタデータ) (2022-02-25T10:37:52Z) - Capturing Failures of Large Language Models via Human Cognitive Biases [18.397404180932373]
OpenAIのCodex errsは、入力プロンプトのフレーム化、アンカーへの出力の調整、頻繁なトレーニング例を模倣する出力へのバイアスなどに基づいている。
我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-02-24T18:58:52Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。