論文の概要: Tibetan Language and AI: A Comprehensive Survey of Resources, Methods and Challenges
- arxiv url: http://arxiv.org/abs/2510.19144v1
- Date: Wed, 22 Oct 2025 00:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.832376
- Title: Tibetan Language and AI: A Comprehensive Survey of Resources, Methods and Challenges
- Title(参考訳): チベット語とAI:資源・方法・課題の総合的な調査
- Authors: Cheng Huang, Nyima Tashi, Fan Gao, Yutong Liu, Jiahao Li, Hao Tian, Siyang Jiang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Jin Zhang, Xiao Feng, Hao Wang, Jie Tang, Guojie Tang, Xiangxiang Wang, Jia Zhang, Tsengdar Lee, Yongbin Yu,
- Abstract要約: チベット語はアジアの主要な低資源言語の一つである。
少数言語向けのAIシステムの開発への関心が高まっているにもかかわらず、チベット語はアクセス可能なデータリソースが不足しているため、限られた注目を集めている。
本稿は,AI分野におけるチベットAIの現状を包括的に調査する。
- 参考スコア(独自算出の注目度): 27.73456704472439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tibetan, one of the major low-resource languages in Asia, presents unique linguistic and sociocultural characteristics that pose both challenges and opportunities for AI research. Despite increasing interest in developing AI systems for underrepresented languages, Tibetan has received limited attention due to a lack of accessible data resources, standardized benchmarks, and dedicated tools. This paper provides a comprehensive survey of the current state of Tibetan AI in the AI domain, covering textual and speech data resources, NLP tasks, machine translation, speech recognition, and recent developments in LLMs. We systematically categorize existing datasets and tools, evaluate methods used across different tasks, and compare performance where possible. We also identify persistent bottlenecks such as data sparsity, orthographic variation, and the lack of unified evaluation metrics. Additionally, we discuss the potential of cross-lingual transfer, multi-modal learning, and community-driven resource creation. This survey aims to serve as a foundational reference for future work on Tibetan AI research and encourages collaborative efforts to build an inclusive and sustainable AI ecosystem for low-resource languages.
- Abstract(参考訳): チベット語はアジアにおける主要な低リソース言語の一つであり、独自の言語的・社会文化的特徴を示しており、AI研究の課題と機会を兼ね備えている。
表現不足の言語のためのAIシステムの開発への関心が高まっているにもかかわらず、チベット語はアクセス可能なデータリソース、標準化されたベンチマーク、専用のツールが欠如しているため、限られた注目を集めている。
本稿では,AI領域におけるチベットAIの現状を包括的に調査し,テキストおよび音声データ資源,NLPタスク,機械翻訳,音声認識,LLMの最近の発展について紹介する。
既存のデータセットとツールを体系的に分類し、さまざまなタスクで使用されるメソッドを評価し、可能な限りパフォーマンスを比較します。
また、データの分散性、正書法の変化、統一評価指標の欠如など、永続的なボトルネックも特定する。
さらに,言語間移動,マルチモーダル学習,コミュニティ主導の資源創出の可能性についても論じる。
この調査は、チベットのAI研究に関する今後の研究の基盤となる基準として機能することを目的としており、低リソース言語のための包括的で持続可能なAIエコシステムを構築するための協力的な取り組みを奨励している。
関連論文リスト
- Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
誤報は言語境界を超越し、モデレーションシステムに挑戦する。
誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。
この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。