論文の概要: Is Machine Learning Speaking my Language? A Critical Look at the
NLP-Pipeline Across 8 Human Languages
- arxiv url: http://arxiv.org/abs/2007.05872v1
- Date: Sat, 11 Jul 2020 22:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 12:57:44.890754
- Title: Is Machine Learning Speaking my Language? A Critical Look at the
NLP-Pipeline Across 8 Human Languages
- Title(参考訳): 機械学習は私の言語を話すのか?
8言語にわたるNLP-Pipelineの批判的考察
- Authors: Esma Wali, Yan Chen, Christopher Mahoney, Thomas Middleton, Marzieh
Babaeianjelodar, Mariama Njie, Jeanna Neefe Matthews
- Abstract要約: 自然言語処理(NLP)は批判的意思決定システムにおいて重要な要素である。
今日、7000以上の人間の言語が話されており、典型的なNLPパイプラインは、そのほとんどが話者を過小評価している。
本稿は、典型的なNLPパイプラインと、言語が技術的にサポートされている場合でも、完全な参加を避けるために、重大な注意点が残っていることを批判する。
- 参考スコア(独自算出の注目度): 2.5286795247155065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) is increasingly used as a key ingredient in
critical decision-making systems such as resume parsers used in sorting a list
of job candidates. NLP systems often ingest large corpora of human text,
attempting to learn from past human behavior and decisions in order to produce
systems that will make recommendations about our future world. Over 7000 human
languages are being spoken today and the typical NLP pipeline underrepresents
speakers of most of them while amplifying the voices of speakers of other
languages. In this paper, a team including speakers of 8 languages - English,
Chinese, Urdu, Farsi, Arabic, French, Spanish, and Wolof - takes a critical
look at the typical NLP pipeline and how even when a language is technically
supported, substantial caveats remain to prevent full participation. Despite
huge and admirable investments in multilingual support in many tools and
resources, we are still making NLP-guided decisions that systematically and
dramatically underrepresent the voices of much of the world.
- Abstract(参考訳): 自然言語処理(NLP)は、求職者のリストのソートに使用される履歴解析器などの重要な意思決定システムにおいて、ますます重要な要素となっている。
nlpシステムは、しばしば大量の人間のテキストを取り込み、過去の人間の行動や決定から学び、将来の世界についてのレコメンデーションを行うシステムを作ろうとする。
今日、7000以上の人間の言語が話されており、典型的なnlpパイプラインは、そのほとんどが話し手でありながら、他の言語の話者の声を増幅している。
本稿では,8言語(英語,中国語,ウルドゥー語,ファルシ語,アラビア語,フランス語,スペイン語,ウーロフ語)の話者を含むチームが,典型的なNLPパイプラインと,技術的にサポートされた言語であっても,完全な参加を防止するために重要な注意点が残っている。
多くのツールやリソースにおける多言語サポートへの多大な投資にもかかわらず、我々は今でも世界中の声を体系的かつ劇的に過小に表現するnlp誘導の決定をしています。
関連論文リスト
- Natural Language Processing RELIES on Linguistics [13.142686158720021]
言語学がNLPに寄与する6つの主要な面を包含する頭字語RELIESを論じる。
このリストは徹底的なものではないし、言語学もこれらのテーマの下でのあらゆる努力の主点ではない。
論文 参考訳(メタデータ) (2024-05-09T17:59:32Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。