論文の概要: The State and Fate of Linguistic Diversity and Inclusion in the NLP
World
- arxiv url: http://arxiv.org/abs/2004.09095v3
- Date: Wed, 27 Jan 2021 03:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:38:53.115499
- Title: The State and Fate of Linguistic Diversity and Inclusion in the NLP
World
- Title(参考訳): NLP世界における言語多様性と包括性の現状と課題
- Authors: Pratik Joshi, Sebastin Santy, Amar Budhiraja, Kalika Bali, Monojit
Choudhury
- Abstract要約: 言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
- 参考スコア(独自算出の注目度): 12.936270946393483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language technologies contribute to promoting multilingualism and linguistic
diversity around the world. However, only a very small number of the over 7000
languages of the world are represented in the rapidly evolving language
technologies and applications. In this paper we look at the relation between
the types of languages, resources, and their representation in NLP conferences
to understand the trajectory that different languages have followed over time.
Our quantitative investigation underlines the disparity between languages,
especially in terms of their resources, and calls into question the "language
agnostic" status of current models and systems. Through this paper, we attempt
to convince the ACL community to prioritise the resolution of the predicaments
highlighted here, so that no language is left behind.
- Abstract(参考訳): 言語技術は世界中の多言語主義と言語多様性の促進に貢献している。
しかし、急速に発展する言語技術やアプリケーションにおいて、世界の7000を超える言語のうちごくわずかしか表現されていない。
本稿では,NLP会議における言語の種類,リソース,それらの表現の関係を考察し,異なる言語が時間とともに追った軌跡を理解する。
私たちの定量的調査は、特にそれらの資源の観点から、言語間の格差を強調し、現在のモデルやシステムの「言語非依存」状態に疑問を投げかける。
本稿では,aclコミュニティに対して,ここで強調された課題の解決を優先するよう説得し,言語を残さないよう試みる。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Natural Language Processing RELIES on Linguistics [13.142686158720021]
言語学がNLPに寄与する6つの主要な面を包含する頭字語RELIESを論じる。
このリストは徹底的なものではないし、言語学もこれらのテーマの下でのあらゆる努力の主点ではない。
論文 参考訳(メタデータ) (2024-05-09T17:59:32Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。