論文の概要: Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences
- arxiv url: http://arxiv.org/abs/2407.12620v1
- Date: Wed, 17 Jul 2024 14:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:45:33.222250
- Title: Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences
- Title(参考訳): 絶滅危惧言語を活気づける人工知能の力:技術と経験
- Authors: Claudio Pinhanez, Paulo Cavalin, Luciana Storto, Thomas Fimbow, Alexander Cobbinah, Julio Nogima, Marisa Vasconcelos, Pedro Domingues, Priscila de Souza Mizukami, Nicole Grell, Majoí Gongora, Isabel Gonçalves,
- Abstract要約: 我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
- 参考スコア(独自算出の注目度): 31.62071644137294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since 2022 we have been exploring application areas and technologies in which Artificial Intelligence (AI) and modern Natural Language Processing (NLP), such as Large Language Models (LLMs), can be employed to foster the usage and facilitate the documentation of Indigenous languages which are in danger of disappearing. We start by discussing the decreasing diversity of languages in the world and how working with Indigenous languages poses unique ethical challenges for AI and NLP. To address those challenges, we propose an alternative development AI cycle based on community engagement and usage. Then, we report encouraging results in the development of high-quality machine learning translators for Indigenous languages by fine-tuning state-of-the-art (SOTA) translators with tiny amounts of data and discuss how to avoid some common pitfalls in the process. We also present prototypes we have built in projects done in 2023 and 2024 with Indigenous communities in Brazil, aimed at facilitating writing, and discuss the development of Indigenous Language Models (ILMs) as a replicable and scalable way to create spell-checkers, next-word predictors, and similar tools. Finally, we discuss how we envision a future for language documentation where dying languages are preserved as interactive language models.
- Abstract(参考訳): 2022年以降、我々はLarge Language Models (LLMs) のような人工知能(AI)と現代の自然言語処理(NLP)を応用し、その利用を奨励し、消滅の危機にある先住民言語の文書化を促進するための応用分野と技術を模索してきた。
私たちはまず、世界の言語の多様性の減少と、AIとNLPに固有の倫理的課題をいかにもたらすかについて議論する。
これらの課題に対処するため、コミュニティの関与と利用に基づいて、代替開発AIサイクルを提案する。
そこで,本研究では,少数のデータを用いた細調整型SOTA(State-of-the-art)トランスレータにより,インディジェネラル言語のための高品質な機械学習トランスレータの開発を奨励する結果を報告し,その過程で共通の落とし穴を避ける方法について論じる。
また、2023年と2024年にブラジルの先住民コミュニティが行ったプロジェクトで構築したプロトタイプについても紹介し、スペルチェッカー、次の単語予測器、その他のツールを作成するためのレプリカでスケーラブルな方法として、インディジェネラル言語モデル(ILM)の開発について論じています。
最後に,死語が対話型言語モデルとして保存される言語ドキュメントの将来について論じる。
関連論文リスト
- From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation [0.0]
生成型大規模言語モデル(LLM)は、テキスト理解と生成において非並列的な能力を示すイノベーションの最前線にある。
しかし、ウクライナ語のような低リソース言語の限られた表現は、この技術のリーチと関連性を制限し、顕著な課題となっている。
本稿は, オープンソースのGemmaとMistral LLMをウクライナのデータセットで微調整し, 言語能力の向上を目指す。
論文 参考訳(メタデータ) (2024-04-14T04:25:41Z) - Distributed agency in second language learning and teaching through generative AI [0.0]
ChatGPTは、テキストまたは音声形式のチャットを通じて非公式な第二言語プラクティスを提供することができる。
インストラクタはAIを使って、さまざまなメディアで学習と評価材料を構築することができる。
論文 参考訳(メタデータ) (2024-03-29T14:55:40Z) - Building a Language-Learning Game for Brazilian Indigenous Languages: A Case of Study [0.0]
本稿では,依存ツリーバンクから言語演習や質問を自動的に生成するプロセスと,トゥピアン言語のための語彙データベースについて述べる。
我々は、新たなデータ収集プロセスは、先住民コミュニティと連携して確立され、教育目的に向けられるべきであると結論付けている。
論文 参考訳(メタデータ) (2024-03-21T16:11:44Z) - "It's how you do things that matters": Attending to Process to Better
Serve Indigenous Communities with Language Technologies [2.821682550792172]
本稿では,NLP技術の構築における倫理的考察について考察する。
本稿では,AbgenousおよびTorres Strait Islanderコミュニティの研究者17人とのインタビューについて報告する。
我々はNLP研究者に対して、先住民コミュニティとの関わりのプロセスに注意を向けるよう推奨する。
論文 参考訳(メタデータ) (2024-02-04T23:23:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。