論文の概要: Is It Navajo? Accurate Language Detection in Endangered Athabaskan Languages
- arxiv url: http://arxiv.org/abs/2501.15773v1
- Date: Mon, 27 Jan 2025 04:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:12.557715
- Title: Is It Navajo? Accurate Language Detection in Endangered Athabaskan Languages
- Title(参考訳): ナヴァホか?絶滅危惧言語における正確な言語検出
- Authors: Ivory Yang, Weicheng Ma, Chunhui Zhang, Soroush Vosoughi,
- Abstract要約: ナヴァホのような絶滅危惧言語は、現代の言語技術では著しく不足している。
本研究では,Googleの大規模言語モデル(LLM)に基づく言語識別システムの評価を行った。
ナバホ語と8つの混同言語で訓練されたランダムな森林分類器を導入する。
- 参考スコア(独自算出の注目度): 34.78841410279943
- License:
- Abstract: Endangered languages, such as Navajo - the most widely spoken Native American language - are significantly underrepresented in contemporary language technologies, exacerbating the challenges of their preservation and revitalization. This study evaluates Google's large language model (LLM)-based language identification system, which consistently misidentifies Navajo, exposing inherent limitations when applied to low-resource Native American languages. To address this, we introduce a random forest classifier trained on Navajo and eight frequently confused languages. Despite its simplicity, the classifier achieves near-perfect accuracy (97-100%), significantly outperforming Google's LLM-based system. Additionally, the model demonstrates robustness across other Athabaskan languages - a family of Native American languages spoken primarily in Alaska, the Pacific Northwest, and parts of the Southwestern United States - suggesting its potential for broader application. Our findings underscore the pressing need for NLP systems that prioritize linguistic diversity and adaptability over centralized, one-size-fits-all solutions, especially in supporting underrepresented languages in a multicultural world. This work directly contributes to ongoing efforts to address cultural biases in language models and advocates for the development of culturally localized NLP tools that serve diverse linguistic communities.
- Abstract(参考訳): 最も広く話されているナヴァホ語のような絶滅危惧言語は、現代の言語技術では著しく過小評価されており、その保存と再生の課題が悪化している。
本研究では,Googleの大規模言語モデル(LLM)に基づく言語識別システムの評価を行った。
これを解決するために,ナバホ語と8つの混同言語で訓練されたランダムな森林分類器を導入する。
その単純さにもかかわらず、分類器はほぼ完璧な精度(97-100%)を達成し、GoogleのLLMシステムよりもはるかに優れている。
さらにこのモデルは、アラスカ、太平洋岸北西部、およびアメリカ合衆国南西部で主に話されている先住民族の言語である他のアサバスカ諸語にまたがる堅牢性を示している。
本研究は, 言語多様性と適応性を重視したNLPシステムの必要性を, 集中型一大ソリューション, 特に多文化世界における非表現型言語のサポートに強く推し進めるものである。
この研究は、言語モデルにおける文化的バイアスに対処するための継続的な努力に直接貢献し、多様な言語コミュニティに役立つ文化的に局所化されたNLPツールの開発を提唱する。
関連論文リスト
- Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources [45.07333085270152]
アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
我々はアルゼンチンで話される先住民族の言語を体系化し、それらを7つの言語族に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
論文 参考訳(メタデータ) (2025-01-17T03:47:19Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。