論文の概要: Vavanagi: a Community-run Platform for Documentation of the Hula Language in Papua New Guinea
- arxiv url: http://arxiv.org/abs/2603.14210v1
- Date: Sun, 15 Mar 2026 03:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.671799
- Title: Vavanagi: a Community-run Platform for Documentation of the Hula Language in Papua New Guinea
- Title(参考訳): バヴァナギ:パプアニューギニアのフラ語の文書化のためのコミュニティ運営プラットフォーム
- Authors: Bri Olewale, Raphael Merx, Ekaterina Vylomova,
- Abstract要約: 我々は,パプアニューギニアのオーストロネシア語であるフラ(ヴラヤ)のコミュニティ運営プラットフォームであるヴァヴァナギについて紹介する。
Vavanagiはクラウドソースの英語とHulaのテキストの翻訳と音声の録音をサポートしており、古参のレビューとコミュニティが管理するデータ基盤がある。
- 参考スコア(独自算出の注目度): 4.33699339200302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Vavanagi, a community-run platform for Hula (Vula'a), an Austronesian language of Papua New Guinea with approximately 10,000 speakers. Vavanagi supports crowdsourced English-Hula text translation and voice recording, with elder-led review and community-governed data infrastructure. To date, 77 translators and 4 reviewers have produced over 12k parallel sentence pairs covering 9k unique Hula words. We also propose a multi-level framework for measuring community involvement, from consultation to fully community-initiated and governed projects. We position Vavanagi at Level 5: initiative, design, implementation, and data governance all sit within the Hula community, making it, to our knowledge, the first community-led language technology initiative for a language of this size. Vavanagi shows how language technology can bridge village-based and urban members, connect generations, and support cultural heritage on the community's own terms.
- Abstract(参考訳): 約10,000人の話者を抱えるパプアニューギニアのオーストロネシア語であるHula(Vula'a)のコミュニティ運営プラットフォームであるVavanagiを紹介する。
Vavanagiはクラウドソースの英語とHulaのテキストの翻訳と音声の録音をサポートしており、古参のレビューとコミュニティが管理するデータ基盤がある。
現在までに、77の翻訳者と4人のレビュアーが、9kのHulaワードをカバーする12k以上のパラレルな文ペアを作成している。
また,コンサルテーションから完全にコミュニティ主導型,管理型プロジェクトに至るまで,コミュニティの関与を評価するための多段階フレームワークを提案する。
私たちは、Vavanagiをレベル5に位置づけています。イニシアティブ、設計、実装、データガバナンスはすべて、私たちの知る限り、この規模の言語のための最初のコミュニティ主導の言語技術イニシアチブです。
バヴァナギは、言語技術が村や都市部を橋渡しし、世代を繋ぎ、コミュニティの用語で文化遺産をサポートする方法を示している。
関連論文リスト
- Quechua Speech Datasets in Common Voice: The Case of Puno Quechua [0.0]
Quechuasのようなアンダーリソース言語は、データとリソース不足に直面している。
本稿では,ケチュア語の共通音声への統合について検討する。
論文 参考訳(メタデータ) (2025-10-13T12:44:17Z) - Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo [0.815557531820863]
本稿では,Kedaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
本プロジェクトは,これらの言語の母語話者からテキストや音声データを収集するために,選択的クラウドソーシング手法を用いた。
我々はこれらのリソースをオープン検索プラットフォーム、すなわち並列テキストコーパスのZenodoと音声データセットのMozilla Common Voiceを通じて自由にアクセスできるようにした。
論文 参考訳(メタデータ) (2025-01-19T10:17:21Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - A Summary of the First Workshop on Language Technology for Language
Documentation and Revitalization [70.14668193220528]
2019年8月、カーネギーメロン大学でワークショップが開かれ、言語コミュニティのメンバー、ドキュメンタリー言語学者、技術者を集結させようとした。
本報告では,ワークショップの結果を報告するとともに,9言語を対象とした様々な技術が開発され,実装されている。
論文 参考訳(メタデータ) (2020-04-27T22:55:55Z) - Towards Neural Machine Translation for Edoid Languages [2.144787054581292]
多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
論文 参考訳(メタデータ) (2020-03-24T07:53:41Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。