Fugu-MT 論文翻訳(概要): One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia

論文の概要: One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia

arxiv url: http://arxiv.org/abs/2203.13357v1
Date: Thu, 24 Mar 2022 22:07:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 13:03:31.595244
Title: One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia
Title（参考訳）: 1つの国、700以上の言語:インドネシアの低表現言語と方言に対するnlpチャレンジ
Authors: Alham Fikri Aji, Genta Indra Winata, Fajri Koto, Samuel Cahyawijaya, Ade Romadhony, Rahmad Mahendra, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Timothy Baldwin, Jey Han Lau, Sebastian Ruder
Abstract要約: インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
参考スコア（独自算出の注目度）: 60.87739250251769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NLP research is impeded by a lack of resources and awareness of the challenges presented by underrepresented languages and dialects. Focusing on the languages spoken in Indonesia, the second most linguistically diverse and the fourth most populous nation of the world, we provide an overview of the current state of NLP research for Indonesia's 700+ languages. We highlight challenges in Indonesian NLP and how these affect the performance of current NLP systems. Finally, we provide general recommendations to help develop NLP technology not only for languages of Indonesia but also other underrepresented languages.
Abstract（参考訳）: NLP研究は、リソースの不足と、表現不足の言語や方言がもたらす課題に対する認識の欠如によって妨げられている。インドネシアでは2番目に言語が多様で、世界で4番目に人口の多い国であるインドネシアで話されている言語に注目し、インドネシアの700以上の言語に関するnlp研究の現状について概観する。インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。最後に,インドネシアの言語だけでなく,他の未表現言語に対しても,NLP技術開発を支援するための一般的な勧告を提供する。

関連論文リスト

LoraxBench: A Multitask, Multilingual Benchmark Suite for 20 Indonesian Languages [45.640417004733166]
インドネシアの低リソース言語に焦点を当てたベンチマークであるLoraxBenchを紹介します。我々のデータセットは、20言語をカバーし、3つの言語に2つの形式レジスタを追加しています。本稿では,レジスタの変更がモデル性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-08-17T18:07:57Z)
Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead [24.670007883062475]
アフリカは2000以上の言語を持つ世界で最も豊かな言語圏の1つである。この多様性は、最先端の自然言語処理システムにはほとんど反映されない。我々は過去5年間に出版されたアフリカ言語のためのNLPに関する734の研究論文を分析した。
論文参考訳（メタデータ） (2025-05-27T15:13:08Z)
NaijaNLP: A Survey of Nigerian Low-Resource Languages [0.0]
3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
論文参考訳（メタデータ） (2025-02-27T05:48:51Z)
Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文参考訳（メタデータ） (2024-07-13T12:01:52Z)
NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。 NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文参考訳（メタデータ） (2024-03-04T08:05:34Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian Languages [20.051904366350293]
NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングによる、最大のクラウドソーシングアグリゲーションの提供を目指している。インドネシアのNLPリソースへのオープンかつ集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進展を妨げるデータ不足問題に対処できることを願っています。
論文参考訳（メタデータ） (2022-07-21T15:05:42Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
Systematic Inequalities in Language Technology Performance across the World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文参考訳（メタデータ） (2021-10-13T14:03:07Z)
Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文参考訳（メタデータ） (2021-05-11T17:37:55Z)
The State and Fate of Linguistic Diversity and Inclusion in the NLP World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文参考訳（メタデータ） (2020-04-20T07:19:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。