論文の概要: How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language
- arxiv url: http://arxiv.org/abs/2204.11909v1
- Date: Mon, 25 Apr 2022 18:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 12:12:06.642323
- Title: How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language
- Title(参考訳): NLPはどのようにして絶滅危惧言語を復活させるか?
チェロキー語における事例研究とロードマップ
- Authors: Shiyue Zhang, Ben Frey, Mohit Bansal
- Abstract要約: 世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
- 参考スコア(独自算出の注目度): 91.79339725967073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More than 43% of the languages spoken in the world are endangered, and
language loss currently occurs at an accelerated rate because of globalization
and neocolonialism. Saving and revitalizing endangered languages has become
very important for maintaining the cultural diversity on our planet. In this
work, we focus on discussing how NLP can help revitalize endangered languages.
We first suggest three principles that may help NLP practitioners to foster
mutual understanding and collaboration with language communities, and we
discuss three ways in which NLP can potentially assist in language education.
We then take Cherokee, a severely-endangered Native American language, as a
case study. After reviewing the language's history, linguistic features, and
existing resources, we (in collaboration with Cherokee community members)
arrive at a few meaningful ways NLP practitioners can collaborate with
community partners. We suggest two approaches to enrich the Cherokee language's
resources with machine-in-the-loop processing, and discuss several NLP tools
that people from the Cherokee community have shown interest in. We hope that
our work serves not only to inform the NLP community about Cherokee, but also
to provide inspiration for future work on endangered languages in general. Our
code and data will be open-sourced at
https://github.com/ZhangShiyue/RevitalizeCherokee
- Abstract(参考訳): 世界中で話されている言語の43%以上が絶滅危惧種であり、グローバル化と新植民地主義により言語喪失が加速している。
絶滅危惧言語の保存と活性化は、地球上の文化的多様性を維持する上で非常に重要である。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
まず,nlp実践者が言語コミュニティとの相互理解とコラボレーションを促進するための3つの原則を提案し,nlpが言語教育を支援できる3つの方法について議論する。
そして、重度の絶滅危惧種であるチェロキー語をケーススタディとして捉えます。
言語の歴史、言語の特徴、そして既存のリソースをレビューした後、私たちは(チェロキーのコミュニティメンバーと共同で)nlp実践者がコミュニティパートナーと協力できる有意義な方法に到達しました。
そこで我々は,Cherokee言語のリソースをマシン・イン・ザ・ループ処理で豊かにするための2つのアプローチを提案し,Cherokeeコミュニティの人々が興味を示したいくつかのNLPツールについて議論する。
私たちの仕事は、チェロキーについてnlpコミュニティに知らせるだけでなく、絶滅危惧言語全般に関する今後の作業にインスピレーションを与えるのに役立つことを願っています。
私たちのコードとデータはhttps://github.com/ZhangShiyue/RevitalizeCherokeeでオープンソース化されます。
関連論文リスト
- Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。
グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文 参考訳(メタデータ) (2024-09-08T23:51:04Z) - "It's how you do things that matters": Attending to Process to Better
Serve Indigenous Communities with Language Technologies [2.821682550792172]
本稿では,NLP技術の構築における倫理的考察について考察する。
本稿では,AbgenousおよびTorres Strait Islanderコミュニティの研究者17人とのインタビューについて報告する。
我々はNLP研究者に対して、先住民コミュニティとの関わりのプロセスに注意を向けるよう推奨する。
論文 参考訳(メタデータ) (2024-02-04T23:23:51Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Ensuring the Inclusive Use of Natural Language Processing in the Global
Response to COVID-19 [58.720142291102135]
低リソース言語を網羅することで、現在のNLPアプローチと将来のNLPアプローチをより包括的に行う方法について議論する。
我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-08-11T12:54:26Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - ChrEn: Cherokee-English Machine Translation for Endangered Language
Revitalization [91.96528006301654]
チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。
チェロキー語話者は世界で約2,000人しか残っていない。
論文 参考訳(メタデータ) (2020-10-09T20:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。