論文の概要: One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia
- arxiv url: http://arxiv.org/abs/2203.13357v1
- Date: Thu, 24 Mar 2022 22:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:03:31.595244
- Title: One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia
- Title(参考訳): 1つの国、700以上の言語:インドネシアの低表現言語と方言に対するnlpチャレンジ
- Authors: Alham Fikri Aji, Genta Indra Winata, Fajri Koto, Samuel Cahyawijaya,
Ade Romadhony, Rahmad Mahendra, Kemal Kurniawan, David Moeljadi, Radityo Eko
Prasojo, Timothy Baldwin, Jey Han Lau, Sebastian Ruder
- Abstract要約: インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
- 参考スコア(独自算出の注目度): 60.87739250251769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP research is impeded by a lack of resources and awareness of the
challenges presented by underrepresented languages and dialects. Focusing on
the languages spoken in Indonesia, the second most linguistically diverse and
the fourth most populous nation of the world, we provide an overview of the
current state of NLP research for Indonesia's 700+ languages. We highlight
challenges in Indonesian NLP and how these affect the performance of current
NLP systems. Finally, we provide general recommendations to help develop NLP
technology not only for languages of Indonesia but also other underrepresented
languages.
- Abstract(参考訳): NLP研究は、リソースの不足と、表現不足の言語や方言がもたらす課題に対する認識の欠如によって妨げられている。
インドネシアでは2番目に言語が多様で、世界で4番目に人口の多い国であるインドネシアで話されている言語に注目し、インドネシアの700以上の言語に関するnlp研究の現状について概観する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
最後に,インドネシアの言語だけでなく,他の未表現言語に対しても,NLP技術開発を支援するための一般的な勧告を提供する。
関連論文リスト
- Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。
構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。
本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian
Languages [20.051904366350293]
NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングによる、最大のクラウドソーシングアグリゲーションの提供を目指している。
インドネシアのNLPリソースへのオープンかつ集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進展を妨げるデータ不足問題に対処できることを願っています。
論文 参考訳(メタデータ) (2022-07-21T15:05:42Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。