論文の概要: Advancing Uto-Aztecan Language Technologies: A Case Study on the Endangered Comanche Language
- arxiv url: http://arxiv.org/abs/2505.18159v1
- Date: Sat, 10 May 2025 06:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.406671
- Title: Advancing Uto-Aztecan Language Technologies: A Case Study on the Endangered Comanche Language
- Title(参考訳): ウト・アステカ語技術の発展:絶滅危惧言語コマンチェ語を事例として
- Authors: Jesus Alvarez C, Daua D. Karajeanes, Ashley Celeste Prado, John Ruttan, Ivory Yang, Sean O'Brien, Vasu Sharma, Kevin Zhu,
- Abstract要約: この研究は、絶滅寸前にあるユト・アステカ語族の言語であるコマンチェの計算研究を初めて紹介した。
本稿では,412句を手作業でキュレートしたデータセット,合成データ生成パイプライン,GPT-4oおよびGPT-4o-miniの言語識別実験を行った。
- 参考スコア(独自算出の注目度): 3.6335172274433414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digital exclusion of endangered languages remains a critical challenge in NLP, limiting both linguistic research and revitalization efforts. This study introduces the first computational investigation of Comanche, an Uto-Aztecan language on the verge of extinction, demonstrating how minimal-cost, community-informed NLP interventions can support language preservation. We present a manually curated dataset of 412 phrases, a synthetic data generation pipeline, and an empirical evaluation of GPT-4o and GPT-4o-mini for language identification. Our experiments reveal that while LLMs struggle with Comanche in zero-shot settings, few-shot prompting significantly improves performance, achieving near-perfect accuracy with just five examples. Our findings highlight the potential of targeted NLP methodologies in low-resource contexts and emphasize that visibility is the first step toward inclusion. By establishing a foundation for Comanche in NLP, we advocate for computational approaches that prioritize accessibility, cultural sensitivity, and community engagement.
- Abstract(参考訳): 絶滅危惧言語のデジタル排除は、言語研究と再生活動の両方を制限する、NLPにおける重要な課題である。
本研究では,ユト・アステカ語が絶滅寸前にあるコマンチェ語について,最小費用のNLP介入がいかに言語保存を支援するかを示す最初の計算結果を紹介する。
本稿では,412句を手作業でキュレートしたデータセット,合成データ生成パイプライン,GPT-4oおよびGPT-4o-miniの言語識別実験を行った。
実験の結果,LLMはゼロショット設定ではコマンチェと競合するが,少数ショットでは性能が著しく向上し,わずか5例でほぼ完璧に精度が向上することがわかった。
本研究は,低リソース環境でのNLP手法の可能性を強調し,可視性が包摂性に向けた第一歩であることを強調した。
NLPにおけるコマンチェの基礎を確立することにより、アクセシビリティ、文化的感受性、コミュニティエンゲージメントを優先する計算手法を提唱する。
関連論文リスト
- Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は、体系的かつ総合的なモノリンガルNLPサーベイを作成するための一般化可能な方法論を紹介する。
本手法をギリシャのNLP(2012-2023)に適用し,その現状と課題を概観する。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。