論文の概要: NushuRescue: Revitalization of the Endangered Nushu Language with AI
- arxiv url: http://arxiv.org/abs/2412.00218v3
- Date: Wed, 11 Dec 2024 07:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:57.950842
- Title: NushuRescue: Revitalization of the Endangered Nushu Language with AI
- Title(参考訳): NushuRescue:AIによる絶滅危惧言語復活
- Authors: Ivory Yang, Weicheng Ma, Soroush Vosoughi,
- Abstract要約: NushuRescueは、最小限のデータで絶滅危惧言語上で大きな言語モデルをトレーニングするために設計された、AI駆動のフレームワークである。
我々は,500文のNushu- Chinese並列コーパスであるNCGoldを開発した。
ヌシュレスキューは50の文に対して48.69%の翻訳精度を達成し、異なる長さの98の漢文を新たに翻訳したNASilverを作成した。
- 参考スコア(独自算出の注目度): 28.32892942956938
- License:
- Abstract: The preservation and revitalization of endangered and extinct languages is a meaningful endeavor, conserving cultural heritage while enriching fields like linguistics and anthropology. However, these languages are typically low-resource, making their reconstruction labor-intensive and costly. This challenge is exemplified by Nushu, a rare script historically used by Yao women in China for self-expression within a patriarchal society. To address this challenge, we introduce NushuRescue, an AI-driven framework designed to train large language models (LLMs) on endangered languages with minimal data. NushuRescue automates evaluation and expands target corpora to accelerate linguistic revitalization. As a foundational component, we developed NCGold, a 500-sentence Nushu-Chinese parallel corpus, the first publicly available dataset of its kind. Leveraging GPT-4-Turbo, with no prior exposure to Nushu and only 35 short examples from NCGold, NushuRescue achieved 48.69% translation accuracy on 50 withheld sentences and generated NCSilver, a set of 98 newly translated modern Chinese sentences of varying lengths. A sample of both NCGold and NCSilver is included in the Supplementary Materials. Additionally, we developed FastText-based and Seq2Seq models to further support research on Nushu. NushuRescue provides a versatile and scalable tool for the revitalization of endangered languages, minimizing the need for extensive human input.
- Abstract(参考訳): 絶滅危惧言語と絶滅危惧言語の保存と再生は重要な取り組みであり、文化遺産を保存し、言語学や人類学のような分野を豊かにしている。
しかしながら、これらの言語は典型的には低リソースであり、その再構築は労働集約的でコストがかかる。
この挑戦は、中国におけるヤオの女性たちが家父長制社会の中で自己表現するために歴史的に用いた稀な脚本であるヌーシュによって実証されている。
この課題に対処するために、最小限のデータで絶滅危惧言語上で大きな言語モデル(LLM)をトレーニングするように設計された、AI駆動のフレームワークであるNushuRescueを紹介した。
NushuRescueは評価を自動化し、ターゲットコーパスを拡張して言語再生を加速する。
基礎的な構成要素として,500文のNushu- Chinese並列コーパスであるNCGoldを開発した。
GPT-4-Turboは、Nushuに事前に触れることなく、NCGoldから35の短い例しか出さず、50の文に対して48.69%の翻訳精度を達成し、異なる長さの98の現代中国語文を新たに翻訳したNASilverを生成した。
NCGold と NCSilver のサンプルは補助材料に含まれている。
また,Nushuの研究を支援するために,FastTextベースのSeq2Seqモデルを開発した。
NushuRescueは、絶滅危惧言語を再活性化するための汎用的でスケーラブルなツールを提供する。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study [14.300310437948443]
本稿では,低リソース言語への翻訳を容易にするために,事前学習型言語モデルの利点と,セック2セックアーキテクチャの知識蒸留を活用するフレームワークについて検討する。
本フレームワークは,低リソースのIndic言語を4つのIndic-to-Indic方向で評価し,BLEU-4とchrFの改善を実現した。
論文 参考訳(メタデータ) (2024-07-09T04:19:52Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages [1.0312968200748118]
本稿では,単語埋め込みを多数言語から4つの少数言語に翻訳する手法を提案する。
さらに、感情分析を行うために、英語データに基づいてトレーニングされた新しいニューラルネットワークモデルを提案する。
我々の研究は、最先端のニューラルモデルが絶滅危惧言語で使用できることを示している。
論文 参考訳(メタデータ) (2023-05-24T17:40:20Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。