論文の概要: Recent Advancements and Challenges of Turkic Central Asian Language Processing
- arxiv url: http://arxiv.org/abs/2407.05006v2
- Date: Sat, 23 Nov 2024 12:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:03.674723
- Title: Recent Advancements and Challenges of Turkic Central Asian Language Processing
- Title(参考訳): トルコ語中央アジアの言語処理の進歩と課題
- Authors: Yana Veitsman, Mareike Hartmann,
- Abstract要約: 中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
- 参考スコア(独自算出の注目度): 4.189204855014775
- License:
- Abstract: Research in NLP for Central Asian Turkic languages - Kazakh, Uzbek, Kyrgyz, and Turkmen - faces typical low-resource language challenges like data scarcity, limited linguistic resources and technology development. However, recent advancements have included the collection of language-specific datasets and the development of models for downstream tasks. Thus, this paper aims to summarize recent progress and identify future research directions. It provides a high-level overview of each language's linguistic features, the current technology landscape, the application of transfer learning from higher-resource languages, and the availability of labeled and unlabeled data. By outlining the current state, we hope to inspire and facilitate future research.
- Abstract(参考訳): 中央アジアのトルコ語(カザフ語、ウズベク語、キルギス語、トルクメン語)に対するNLPの研究は、データ不足、限られた言語資源、技術開発のような典型的な低リソースの言語課題に直面している。
しかし、近年の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
そこで本稿は,最近の進歩を要約し,今後の研究方向性を明らかにすることを目的とする。
これは、各言語の言語的特徴、現在の技術状況、高リソース言語からのトランスファーラーニングの適用、ラベル付きおよびラベルなしデータの可用性に関する高レベルな概要を提供する。
現状を概説することで、今後の研究を刺激し、促進したいと考えています。
関連論文リスト
- From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language [41.272055304311905]
本稿では,東南アジア諸国で広く話されている資源制約のあるウルドゥー語について述べる。
ウルドゥーASRにおける将来の研究の現在の研究動向、技術進歩、および潜在的方向性について概説する。
論文 参考訳(メタデータ) (2024-11-20T17:39:56Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Computational historical linguistics and language diversity in South
Asia [1.5293427903448025]
南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。
この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。
我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
論文 参考訳(メタデータ) (2022-03-23T16:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。