論文の概要: Two CFG Nahuatl for automatic corpora expansion
- arxiv url: http://arxiv.org/abs/2512.14239v1
- Date: Tue, 16 Dec 2025 09:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.669025
- Title: Two CFG Nahuatl for automatic corpora expansion
- Title(参考訳): 自動コーパス拡張のための2つのCFG Nahuatl
- Authors: Juan-José Guzmán-Landa, Juan-Manuel Torres-Moreno, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger Martha-Lorena Avendaño-Garrido,
- Abstract要約: この記事では、Nawatl Corporaの拡張のための2つのContext-Free Grammars(CFG)を紹介します。
ナベル語(Naavell)は、メキシコのアメリンダ語(英語版)の言語である。
目的は、かなりの数の構文的に有効な人工的なナワトル文を作ることである。
- 参考スコア(独自算出の注目度): 0.22577070341971636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this article is to introduce two Context-Free Grammars (CFG) for Nawatl Corpora expansion. Nawatl is an Amerindian language (it is a National Language of Mexico) of the $π$-language type, i.e. a language with few digital resources. For this reason the corpora available for the learning of Large Language Models (LLMs) are virtually non-existent, posing a significant challenge. The goal is to produce a substantial number of syntactically valid artificial Nawatl sentences and thereby to expand the corpora for the purpose of learning non contextual embeddings. For this objective, we introduce two new Nawatl CFGs and use them in generative mode. Using these grammars, it is possible to expand Nawatl corpus significantly and subsequently to use it to learn embeddings and to evaluate their relevance in a sentences semantic similarity task. The results show an improvement compared to the results obtained using only the original corpus without artificial expansion, and also demonstrate that economic embeddings often perform better than some LLMs.
- Abstract(参考訳): 本稿の目的は、Nawatl Corporaの拡張に2つのContext-Free Grammars(CFG)を導入することである。
ナワトル語(Nawatl)は、メキシコのアメリンディアン語(英語版)で、$π$-Language(英語版)型の言語である。
このため、LLM(Large Language Models)の学習に利用できるコーパスは事実上存在しないため、大きな課題となっている。
目的は、構文的に有効な人工的なナワトル文を大量に生成し、非文脈埋め込みを学習するためにコーパスを拡張することである。
この目的のために,2つの新しいNawatl CFGを導入し,生成モードで使用する。
これらの文法を用いて、Nawatl corpusを著しく拡張し、次いで埋め込みを学習し、文の意味的類似性タスクにおけるそれらの関連性を評価することができる。
その結果, 人工的拡張を伴わない元のコーパスのみを用いて得られた結果と比較して, 経済的な埋込み性能がLLMよりも優れていたことが示唆された。
関連論文リスト
- IASC: Interactive Agentic System for ConLangs [4.567171631759881]
本稿では,LLMを構築言語開発のためのツールとして利用するシステムを提案する。
このシステムはエージェント的アプローチを用いて言語のためのターゲット音韻論を作成する。
音韻モデルと形態素の集合を用いてレキシコンを構築する。
このシステムは、さらに多くの文を対象の言語に翻訳することもできる。
論文 参考訳(メタデータ) (2025-10-08T22:27:45Z) - A First Context-Free Grammar Applied to Nawatl Corpora Augmentation [0.21498988090998952]
Nawatl言語のための文脈自由文法(CFG)を導入する。
ナワトル語は、ほとんどデジタル資源を持たないアメリンディアン語である。
文法はナワトル語でコーパスを拡張するのに大いに役立ちます。
論文 参考訳(メタデータ) (2025-10-06T15:46:54Z) - $π$-yalli: un nouveau corpus pour le nahuatl [0.8247755416642547]
NAHU$2$プロジェクトは、機械学習に適応した$pi$-YALLIコーパスを構築することを目的とした、フランスとメキシコのコラボレーションである。
$pi$-YALLIコーパスは、Nahuatl言語のためのコンピュータリソースの開発に使用される。
論文 参考訳(メタデータ) (2024-12-20T12:03:10Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Turkish Native Language Identification V2 [1.7802147489386628]
本稿では,トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
我々はアルバニア語、アラビア語、ペルシア語の母語話者によって書かれたテキストのコーパスを分析する。
我々のモデルは有望な結果を得ることができ、最も予測可能な特徴を分析してL1特異的な伝達効果を明らかにする。
論文 参考訳(メタデータ) (2023-07-27T13:28:31Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - The Return of Lexical Dependencies: Neural Lexicalized PCFGs [103.41187595153652]
語彙化PCFGのニューラルモデルを提案する。
実験により、この統一されたフレームワークは、いずれかの形式主義単独で達成されるよりも、両方の表現に対してより強い結果をもたらすことが示された。
論文 参考訳(メタデータ) (2020-07-29T22:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。