論文の概要: Generative AI and Large Language Models in Language Preservation: Opportunities and Challenges
- arxiv url: http://arxiv.org/abs/2501.11496v2
- Date: Mon, 19 May 2025 12:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.377122
- Title: Generative AI and Large Language Models in Language Preservation: Opportunities and Challenges
- Title(参考訳): 言語保存におけるジェネレーティブAIと大規模言語モデル - 機会と課題
- Authors: Vincent Koc,
- Abstract要約: Generative AI(GenAI)とLarge Language Models(LLM)は、コーパス生成、転写、翻訳、学習を自動化する新たなフロンティアをアンロックする。
本稿では、言語固有のニーズに対してGenAIアプリケーションを体系的に評価する新しい分析フレームワークを提案する。
コミュニティ主導の音声認識などの成功例を92%の精度で再現するTe Reo M=aori再活性化による有効性を示す。
我々の知見は、GenAIが言語保存に革命をもたらすことは確かだが、介入がコミュニティ中心のデータスチュワードシップ、継続的な評価、透明なリスク管理に厳格に固定されている場合に限られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global crisis of language endangerment meets a technological turning point as Generative AI (GenAI) and Large Language Models (LLMs) unlock new frontiers in automating corpus creation, transcription, translation, and tutoring. However, this promise is imperiled by fragmented practices and the critical lack of a methodology to navigate the fraught balance between LLM capabilities and the profound risks of data scarcity, cultural misappropriation, and ethical missteps. This paper introduces a novel analytical framework that systematically evaluates GenAI applications against language-specific needs, embedding community governance and ethical safeguards as foundational pillars. We demonstrate its efficacy through the Te Reo M\=aori revitalization, where it illuminates successes, such as community-led Automatic Speech Recognition achieving 92% accuracy, while critically surfacing persistent challenges in data sovereignty and model bias for digital archives and educational tools. Our findings underscore that GenAI can indeed revolutionize language preservation, but only when interventions are rigorously anchored in community-centric data stewardship, continuous evaluation, and transparent risk management. Ultimately, this framework provides an indispensable toolkit for researchers, language communities, and policymakers, aiming to catalyze the ethical and high-impact deployment of LLMs to safeguard the world's linguistic heritage.
- Abstract(参考訳): ジェネレーティブAI(GenAI)とLarge Language Models(LLM)がコーパス生成、転写、翻訳、学習を自動化する新たなフロンティアを解放する。
しかし、この約束は断片化された慣行と、LCM能力とデータ不足、文化的な誤り、倫理的誤りの深刻なリスクの間の細かなバランスをナビゲートする方法論が欠如していることによってもたらされる。
本稿では、言語固有のニーズに対してGenAIアプリケーションを体系的に評価し、コミュニティガバナンスと倫理的保護を基礎的な柱として組み込んだ新しい分析フレームワークを提案する。
コミュニティ主導の音声認識など,92%の精度を達成し,データ主権やデジタルアーカイブや教育ツールのモデルバイアスといった永続的な課題を克服しつつ,その効果を実証する。
我々の知見は、GenAIが言語保存に革命をもたらすことは確かだが、介入がコミュニティ中心のデータスチュワードシップ、継続的な評価、透明なリスク管理に厳格に固定されている場合に限られる。
究極的には、このフレームワークは研究者、言語コミュニティ、政策立案者にとって欠かせないツールキットを提供し、世界の言語遺産を保護するためにLLMの倫理的かつ高インパクトな展開を触媒することを目的としている。
関連論文リスト
- IOLBENCH: Benchmarking LLMs on Linguistic Reasoning [8.20398036986024]
IOL(International Linguistics Olympiad)問題に基づく新しいベンチマークであるIOLBENCHを紹介する。
このデータセットは、文法、形態学、音韻学、意味論をテストする様々な問題を含んでいる。
最も先進的なモデルでさえ、言語的な複雑さの複雑さを扱うのに苦労している。
論文 参考訳(メタデータ) (2025-01-08T03:15:10Z) - Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research [23.773194690783512]
低リソース言語は、文化進化と知的多様性を具現化した、人類の歴史の貴重なリポジトリとして機能する。
その重要性にもかかわらず、これらの言語はデータ不足や技術的な制限など、重要な課題に直面している。
大規模言語モデル(LLM)の最近の進歩は、これらの課題に対処するための変革的な機会を提供する。
論文 参考訳(メタデータ) (2024-11-30T00:10:56Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文 参考訳(メタデータ) (2024-07-17T14:46:37Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation [0.0]
生成型大規模言語モデル(LLM)は、テキスト理解と生成において非並列的な能力を示すイノベーションの最前線にある。
しかし、ウクライナ語のような低リソース言語の限られた表現は、この技術のリーチと関連性を制限し、顕著な課題となっている。
本稿は, オープンソースのGemmaとMistral LLMをウクライナのデータセットで微調整し, 言語能力の向上を目指す。
論文 参考訳(メタデータ) (2024-04-14T04:25:41Z) - Factuality Challenges in the Era of Large Language Models [113.3282633305118]
大規模言語モデル(LLM)は、誤った、誤った、あるいは誤解を招くコンテンツを生成する。
LLMは悪意のあるアプリケーションに利用することができる。
これは、ユーザーを欺く可能性があるという点で、社会に重大な課題をもたらす。
論文 参考訳(メタデータ) (2023-10-08T14:55:02Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。