論文の概要: Recent Advancements and Challenges of Turkic Central Asian Language Processing
- arxiv url: http://arxiv.org/abs/2407.05006v1
- Date: Sat, 6 Jul 2024 08:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:28:00.704978
- Title: Recent Advancements and Challenges of Turkic Central Asian Language Processing
- Title(参考訳): トルコ語中央アジアの言語処理の進歩と課題
- Authors: Yana Veitsman,
- Abstract要約: 本稿は、中央アジアの言語、すなわちカザフ語、ウズベク語、キルギス語、トルクメン語のNLP球体に焦点を当てる。
これは、言語言語の言語特性、既に開発された技術の現在のカバレッジとパフォーマンス、ラベル付きおよびラベルなしデータの各言語での可用性について、より広範に高レベルな概要を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in the NLP sphere of the Turkic counterparts of Central Asian languages, namely Kazakh, Uzbek, Kyrgyz, and Turkmen, comes with the typical challenges of low-resource languages, like data scarcity and a general lack of linguistic resources. However, in the recent years research has greatly advanced via collection of language-specific datasets and development of downstream task technologies. Aiming to summarize this research up until May 2024, this paper also seeks to identify potential areas of future work. To achieve this, the paper gives a broad, high-level overview of the linguistic properties of the languages, the current coverage and performance of already developed technology, application of transfer learning techniques from higher-resource languages, and availability of labeled and unlabeled data for each language. Providing a summary of the current state of affairs, we hope that further research will be facilitated with the considerations we provide in the current paper.
- Abstract(参考訳): 中央アジアの言語、すなわちカザフ語、ウズベク語、キルギス語、トルクメン語のNLP圏の研究は、データ不足や一般的な言語資源の欠如など、低リソース言語の典型的な課題を伴っている。
しかし近年,言語固有のデータセットの収集や下流タスク技術の開発を通じて,研究が大幅に進展している。
2024年5月までのこの研究を要約するために,本論文は今後の研究の潜在的な領域を特定することを目的とする。
そこで本稿では,言語の性質,既存の技術の現状と性能,高リソース言語からの移動学習技術の適用,ラベル付き・未ラベルデータの利用について概説する。
現状の要約として、本論文で提示した考察により、さらなる研究が促進されることを願っている。
関連論文リスト
- From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。
ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文 参考訳(メタデータ) (2024-11-20T17:39:56Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Computational historical linguistics and language diversity in South
Asia [1.5293427903448025]
南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。
この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。
我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
論文 参考訳(メタデータ) (2022-03-23T16:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。