論文の概要: Natural Language Processing for Tigrinya: Current State and Future Directions
- arxiv url: http://arxiv.org/abs/2507.17974v1
- Date: Wed, 23 Jul 2025 22:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.6438
- Title: Natural Language Processing for Tigrinya: Current State and Future Directions
- Title(参考訳): Tigrinyaの自然言語処理の現状と今後の方向性
- Authors: Fitsum Gaim, Jong C. Park,
- Abstract要約: ティグリニャは、自然言語処理 (NLP) 研究において、非常に過小評価されている。
この研究は、2011年から2025年までの10年以上にわたる40以上の研究を分析し、ティグリニャにおけるNLP研究の包括的調査を提示する。
- 参考スコア(独自算出の注目度): 6.72184534513047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being spoken by millions of people, Tigrinya remains severely underrepresented in Natural Language Processing (NLP) research. This work presents a comprehensive survey of NLP research for Tigrinya, analyzing over 40 studies spanning more than a decade of work from 2011 to 2025. We systematically review the current state of computational resources, models, and applications across ten distinct downstream tasks, including morphological processing, machine translation, speech recognition, and question-answering. Our analysis reveals a clear trajectory from foundational, rule-based systems to modern neural architectures, with progress consistently unlocked by resource creation milestones. We identify key challenges rooted in Tigrinya's morphological complexity and resource scarcity, while highlighting promising research directions, including morphology-aware modeling, cross-lingual transfer, and community-centered resource development. This work serves as both a comprehensive reference for researchers and a roadmap for advancing Tigrinya NLP. A curated metadata of the surveyed studies and resources is made publicly available.\footnote{Tigrinya NLP Anthology: https://github.com/fgaim/tigrinya-nlp-anthology.
- Abstract(参考訳): 何百万人もの人々が話しているにもかかわらず、ティグリニャはNatural Language Processing (NLP) 研究において非常に過小評価されている。
この研究は、2011年から2025年までの10年以上にわたる40以上の研究を分析し、ティグリニャにおけるNLP研究の包括的調査を提示する。
我々は、形態素処理、機械翻訳、音声認識、質問応答を含む10の下流タスクにおいて、計算資源、モデル、アプリケーションの現状を体系的にレビューする。
我々の分析は、基本的でルールベースのシステムから現代のニューラルアーキテクチャへの明確な軌道を明らかにし、リソース生成のマイルストーンによって、進歩は一貫してアンロックされる。
我々は,Tigrinyaの形態的複雑さと資源不足に根ざした重要な課題を特定し,形態的認識モデリング,言語間移動,コミュニティ中心の資源開発など,有望な研究方向性を強調した。
この研究は研究者の包括的なリファレンスであり、Tigrinya NLPを前進させるロードマップである。
調査対象と資源のキュレートされたメタデータが公開されている。
Tigrinya NLP Anthology: https://github.com/fgaim/tigrinya-nlp-Anthology
関連論文リスト
- HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing [5.5473811549393774]
Hausaは、世界で1億2000万の第一言語(L1)と8000万の第二言語(L2)を持つ低リソース言語である。
本稿では,Hausa NLPの現状を概観し,既存の資源,研究コントリビューション,基本的なNLPタスク間のギャップを体系的に検討する。
アクセシビリティを高め、さらなる開発を促進するために、データセット、ツール、研究成果を集約する、キュレートされたカタログであるHausaNLPを紹介します。
論文 参考訳(メタデータ) (2025-05-20T12:59:55Z) - Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - The Nature of NLP: Analyzing Contributions in NLP Papers [77.31665252336157]
我々は,NLP研究論文の要約として,NLPコントリビューション(NLPコントリビューション)の分類法を提案し,NLPコントリビューション(NLPコントリビューション)を導入した。
NLPの研究は、1970年代から80年代にかけて言語と人間中心の研究に焦点が当てられ、1990年代と2000年代に打ち切られ、2010年代後半から再び上昇し始めた。
私たちのデータセットと分析は、研究トレンドをトレースするための強力なレンズを提供し、インフォグラフィックでデータ駆動の文献調査を生成する可能性を提供します。
論文 参考訳(メタデータ) (2024-09-29T01:29:28Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Neural Machine Translation For Low Resource Languages [0.0]
本稿では,低資源言語の領域を考察し,最先端の結果を得るためにニューラルマシン翻訳モデルを構築する。
本稿は,mBART言語モデルを構築し,様々なNLPおよびディープラーニング技術でそれを拡張するための戦略を探究する。
論文 参考訳(メタデータ) (2023-04-16T19:27:48Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。