論文の概要: AI-Driven Generation of Old English: A Framework for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2507.20111v1
- Date: Sun, 27 Jul 2025 03:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.96793
- Title: AI-Driven Generation of Old English: A Framework for Low-Resource Languages
- Title(参考訳): 古英語のAI駆動生成:低リソース言語のためのフレームワーク
- Authors: Rodrigo Gabriel Salazar Alva, Matías Nuñez, Cristian López, Javier Martín Arista,
- Abstract要約: 古代の言語を保存することは、人類の文化的・言語的遺産を理解するのに不可欠である。
古英語は、そのアクセシビリティを現代の自然言語処理(NLP)技術に制限している。
本稿では,高度大言語モデル(LLM)を用いて,高品質な古英語テキストを生成するスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preserving ancient languages is essential for understanding humanity's cultural and linguistic heritage, yet Old English remains critically under-resourced, limiting its accessibility to modern natural language processing (NLP) techniques. We present a scalable framework that uses advanced large language models (LLMs) to generate high-quality Old English texts, addressing this gap. Our approach combines parameter-efficient fine-tuning (Low-Rank Adaptation, LoRA), data augmentation via backtranslation, and a dual-agent pipeline that separates the tasks of content generation (in English) and translation (into Old English). Evaluation with automated metrics (BLEU, METEOR, and CHRF) shows significant improvements over baseline models, with BLEU scores increasing from 26 to over 65 for English-to-Old English translation. Expert human assessment also confirms high grammatical accuracy and stylistic fidelity in the generated texts. Beyond expanding the Old English corpus, our method offers a practical blueprint for revitalizing other endangered languages, effectively uniting AI innovation with the goals of cultural preservation.
- Abstract(参考訳): 古代の言語を保存することは、人類の文化的・言語的遺産を理解するために不可欠であるが、古英語は、現代自然言語処理(NLP)技術へのアクセシビリティを制限し、極端に資源不足のままである。
本稿では,高度な大規模言語モデル(LLM)を用いて,高品質な古英語テキストを生成するスケーラブルなフレームワークを提案する。
提案手法は,パラメータ効率の高い微調整(Low-Rank Adaptation, LoRA),バックトランスレーションによるデータ拡張,およびコンテンツ生成(英語)と翻訳(古英語)のタスクを分離するデュアルエージェントパイプラインを組み合わせる。
自動メトリクス(BLEU、METEOR、CHRF)による評価は、英語から古英語への翻訳において、BLEUスコアが26から65以上に増加し、ベースラインモデルよりも大幅に改善されている。
専門家による評価は、生成したテキストの文法的精度とスタイル的忠実性も確認する。
我々の手法は、古英語コーパスの拡大以外にも、他の絶滅危惧言語を再活性化するための実践的な青写真を提供し、効果的にAIイノベーションと文化保存の目標を結びつける。
関連論文リスト
- NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T16:19:45Z) - Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-05-07T16:04:45Z) - Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems [0.4218593777811082]
言語は文化的アイデンティティの基盤となっているが、グローバル化と主要言語の優位性により、3000近い言語が絶滅の危機にさらされている。
既存のAI駆動翻訳モデルは効率を優先するが、しばしば文化的ニュアンス、慣用的な表現、歴史的重要性を捉えない。
本稿では,言語コミュニティにおける文化適応型翻訳のための多言語AIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T06:43:59Z) - QueEn: A Large Language Model for Quechua-English Translation [20.377876059048692]
本稿では,Retrieval-Augmented Generation(RAG)とパラメータ効率のよい微調整技術を組み合わせた,ケチュア英訳の新しい手法であるQueEnを提案する。
BLEUスコアは標準GPTモデルの1.5に対して17.6である。
論文 参考訳(メタデータ) (2024-12-06T17:04:21Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文 参考訳(メタデータ) (2024-07-17T14:46:37Z) - Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models [60.09618700199927]
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
論文 参考訳(メタデータ) (2024-06-20T08:13:30Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。