論文の概要: Awal -- Community-Powered Language Technology for Tamazight
- arxiv url: http://arxiv.org/abs/2510.27407v1
- Date: Fri, 31 Oct 2025 11:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.090972
- Title: Awal -- Community-Powered Language Technology for Tamazight
- Title(参考訳): Awal - Tamazightのためのコミュニティベースの言語技術
- Authors: Alp Öktem, Farida Boudichat,
- Abstract要約: Awalは、Tamazightのための言語技術リソースを開発するためのコミュニティ主導のイニシアチブだ。
私たちは18ヶ月にわたるコミュニティの関与を分析し、参加への大きな障壁を明らかにします。
コミュニティコントリビューションの質素なスケールは、複雑な社会言語学的文脈を持つ言語に標準的なクラウドソーシングアプローチを適用するという制限を強調している。
- 参考スコア(独自算出の注目度): 0.21687011163378758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Awal, a community-powered initiative for developing language technology resources for Tamazight. We provide a comprehensive review of the NLP landscape for Tamazight, examining recent progress in computational resources, and the emergence of community-driven approaches to address persistent data scarcity. Launched in 2024, awaldigital.org platform addresses the underrepresentation of Tamazight in digital spaces through a collaborative platform enabling speakers to contribute translation and voice data. We analyze 18 months of community engagement, revealing significant barriers to participation including limited confidence in written Tamazight and ongoing standardization challenges. Despite widespread positive reception, actual data contribution remained concentrated among linguists and activists. The modest scale of community contributions -- 6,421 translation pairs and 3 hours of speech data -- highlights the limitations of applying standard crowdsourcing approaches to languages with complex sociolinguistic contexts. We are working on improved open-source MT models using the collected data.
- Abstract(参考訳): 本稿では,タマジットのための言語技術資源開発のためのコミュニティ主導の取り組みであるAwalについて述べる。
本研究では,Tamazight における NLP の展望を概観し,近年の計算資源の進歩と,永続的なデータ不足に対処するコミュニティ主導のアプローチの出現について考察する。
2024年にローンチされた awaldigital.org プラットフォームは、デジタル空間における Tamazight の表現不足に対処する。
我々は18ヶ月のコミュニティエンゲージメントを分析し、Tamazightの書面への信頼性の制限や、進行中の標準化課題を含む、参加への大きな障壁を明らかにした。
広く肯定的な評価を受けたにもかかわらず、実際のデータ貢献は言語学者や活動家の間で集中したままであった。
コミュニティコントリビューションの質素なスケール(6,421の翻訳ペアと3時間の音声データ)は、複雑な社会言語的文脈を持つ言語に標準的なクラウドソーシングアプローチを適用するという制限を強調している。
収集したデータを用いて,オープンソースのMTモデルの改良に取り組んでいる。
関連論文リスト
- The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP [4.188487384419692]
アフリカの言語は世界の3分の1近くを占めるが、現代のNLP技術に批判的に劣っている。
我々は、体系的なデータ収集、モデル開発、キャパシティビルディングを通じて、この技術的ギャップに対処する包括的な研究イニシアチブであるアフリカ言語研究所を提示する。
論文 参考訳(メタデータ) (2025-10-07T07:42:52Z) - Towards Open-Ended Discovery for Low-Resource NLP [2.31792878608513]
オープンエンドでインタラクティブな言語発見へのパラダイムシフトを議論する。
本稿では,人・機械の協調的不確実性に基づく枠組みを提案する。
この論文は行動への呼びかけであり、我々は、未文書の言語におけるAIが人間の知識とどのように関わるかを再考することを提唱する。
論文 参考訳(メタデータ) (2025-09-22T01:19:04Z) - BTPD: A Multilingual Hand-curated Dataset of Bengali Transnational Political Discourse Across Online Communities [25.55378198149251]
本稿では,3つのオンラインプラットフォームから収集したベンガル政治談話(BTPD)の多言語データセットについて述べる。
本稿では,その話題と多言語コンテンツについて概観する。
論文 参考訳(メタデータ) (2025-06-07T14:43:35Z) - Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation [7.383944919243126]
本研究では,4つの低リソースパキスタン語に対する文化的に妥当な文と実験を生成するデータ拡張手法を提案する。
マルチ言語マスキングされたLarge Language Models (LLMs) を微調整することにより,シャフフヒとパシュトーのNER性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-04-07T15:18:34Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi [13.9876704685177]
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
論文 参考訳(メタデータ) (2020-04-21T20:03:57Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。