Fugu-MT 論文翻訳(概要): KyrgyzNLP: Challenges, Progress, and Future

論文の概要: KyrgyzNLP: Challenges, Progress, and Future

arxiv url: http://arxiv.org/abs/2411.05503v2
Date: Sat, 16 Nov 2024 03:53:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.742959
Title: KyrgyzNLP: Challenges, Progress, and Future
Title（参考訳）: KyrgyzNLP: 挑戦,進歩,未来
Authors: Anton Alekseev, Timur Turatali,
Abstract要約: 大規模言語モデル(LLM)は多くのベンチマークで優れており、言語的タスクと非言語的タスクの両方においてAIアプリケーションを進歩させている。これは主に、リソースの少ない言語(LRL)を不利な状態にしておくことで、十分なリソースを持つ言語に利益をもたらしている。本稿では,特定のLRL:Kyrgyz tiliにおけるNLPフィールドの現状について述べる。
参考スコア（独自算出の注目度）: 1.1920184024241331
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have excelled in numerous benchmarks, advancing AI applications in both linguistic and non-linguistic tasks. However, this has primarily benefited well-resourced languages, leaving less-resourced ones (LRLs) at a disadvantage. In this paper, we highlight the current state of the NLP field in the specific LRL: kyrgyz tili. Human evaluation, including annotated datasets created by native speakers, remains an irreplaceable component of reliable NLP performance, especially for LRLs where automatic evaluations can fall short. In recent assessments of the resources for Turkic languages, Kyrgyz is labeled with the status 'Scraping By', a severely under-resourced language spoken by millions. This is concerning given the growing importance of the language, not only in Kyrgyzstan but also among diaspora communities where it holds no official status. We review prior efforts in the field, noting that many of the publicly available resources have only recently been developed, with few exceptions beyond dictionaries (the processed data used for the analysis is presented at https://kyrgyznlp.github.io/). While recent papers have made some headway, much more remains to be done. Despite interest and support from both business and government sectors in the Kyrgyz Republic, the situation for Kyrgyz language resources remains challenging. We stress the importance of community-driven efforts to build these resources, ensuring the future advancement sustainability. We then share our view of the most pressing challenges in Kyrgyz NLP. Finally, we propose a roadmap for future development in terms of research topics and language resources.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのベンチマークで優れており、言語的タスクと非言語的タスクの両方においてAIアプリケーションを進歩させている。しかし、これは主に、リソースの少ない言語(LRL)に不利な点を残して、十分なリソースを持つ言語に利益をもたらしている。本稿では,特定のLRL:Kyrgyz tiliにおけるNLPフィールドの現状について述べる。ネイティブスピーカーによって作成された注釈付きデータセットを含む人間による評価は、信頼性の高いNLPパフォーマンスの相変わらずの要素であり、特に自動評価が不足するLRLに対してである。トルコ語の資源に関する最近の評価では、キルギス語には「スクレイピング・バイ(Scraping By)」という文字が付けられている。キルギスだけでなく、公的な地位を持たないディアスポラのコミュニティでも、この言語の重要性が高まりつつあることを考えると、これは問題である。この分野における以前の取り組みを概観し、公開リソースの多くが最近開発されたばかりであり、辞書以外の例外はほとんどない(分析に使用される処理データはhttps://kyrgyznlp.github.io/.)。最近の論文はいくつかの道筋をたどっているが、まだまだ多くのことが残っている。キルギス共和国のビジネスセクターと政府セクターからの関心と支援にもかかわらず、キルギス語資源の状況は依然として困難なままである。我々は、これらの資源を構築するためのコミュニティ主導の努力の重要性を強調し、将来的な持続可能性を保証する。そして、キルギスNLPの最も急進的な課題について、私たちの見解を共有します。最後に,研究トピックや言語資源の観点から,今後の開発に向けたロードマップを提案する。

関連論文リスト

NaijaNLP: A Survey of Nigerian Low-Resource Languages [0.0]
3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
論文参考訳（メタデータ） (2025-02-27T05:48:51Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
State of NLP in Kenya: A Survey [0.25454395163615406]
ケニアは言語多様性で知られており、自然言語処理の進歩において固有の課題と有望な機会に直面している。本調査はケニアにおけるNLPの現状を詳細に評価する。論文では、利用可能なデータセットと既存のNLPモデルを批判的に評価することで、大きなギャップを明らかにする。
論文参考訳（メタデータ） (2024-10-13T18:08:24Z)
A Systematic Survey of Natural Language Processing for the Greek Language [2.3499129784547663]
本研究では,モノリンガルNLPサーベイのための一般化可能なフレームワークを提案する。提案手法は,バイアスを最小限に抑えるために構造化された検索プロトコル,分類のためのNLPタスク分類,潜在的なベンチマークを特定するための言語資源を統合する。この枠組みをギリシャのNLP(2012-2023)に適用し、現状、タスク固有の進捗状況、リソースギャップを詳細に分析する。
論文参考訳（メタデータ） (2024-07-13T12:01:52Z)
Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文参考訳（メタデータ） (2024-07-06T08:58:26Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文参考訳（メタデータ） (2024-04-07T11:52:44Z)
LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。 ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文参考訳（メタデータ） (2024-03-25T07:55:29Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
A Survey of Corpora for Germanic Low-Resource Languages and Dialects [18.210880703295253]
この研究は低リソース言語、特に非標準の低リソース言語に焦点を当てている。研究を促進するために,80以上のコーパスの概要を公開している。
論文参考訳（メタデータ） (2023-04-19T16:45:16Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文参考訳（メタデータ） (2022-03-02T16:18:44Z)
Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。 WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。資源開発に関する推奨ガイドラインをまとめる。
論文参考訳（メタデータ） (2022-02-24T18:39:57Z)
Low-resource Languages: A Review of Past Work and Future Challenges [68.8204255655161]
NLPの現在の問題は、教師付きデータやネイティブスピーカーの数、専門家数といった、有用なトレーニング属性が欠けている低リソース言語のマッサージと処理である。本稿は、この問題の解決に向けたこれまでの画期的な成果を簡潔に要約し、今後の研究の方向性の文脈における潜在的な改善について分析する。
論文参考訳（メタデータ） (2020-06-12T15:21:57Z)
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文参考訳（メタデータ） (2020-03-03T05:32:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。