論文の概要: A First Context-Free Grammar Applied to Nawatl Corpora Augmentation
- arxiv url: http://arxiv.org/abs/2510.04945v1
- Date: Mon, 06 Oct 2025 15:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.957865
- Title: A First Context-Free Grammar Applied to Nawatl Corpora Augmentation
- Title(参考訳): Nawatl Corpora拡張に対する文脈自由文法の適用
- Authors: Juan-José Guzmán-Landa, Juan-Manuel Torres-Moreno, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Martha-Lorena Avendaño-Garrido, Graham Ranger,
- Abstract要約: Nawatl言語のための文脈自由文法(CFG)を導入する。
ナワトル語は、ほとんどデジタル資源を持たないアメリンディアン語である。
文法はナワトル語でコーパスを拡張するのに大いに役立ちます。
- 参考スコア(独自算出の注目度): 0.21498988090998952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article we introduce a context-free grammar (CFG) for the Nawatl language. Nawatl (or Nahuatl) is an Amerindian language of the $\pi$-language type, i.e. a language with few digital resources, in which the corpora available for machine learning are virtually non-existent. The objective here is to generate a significant number of grammatically correct artificial sentences, in order to increase the corpora available for language model training. We want to show that a grammar enables us significantly to expand a corpus in Nawatl which we call $\pi$-\textsc{yalli}. The corpus, thus enriched, enables us to train algorithms such as FastText and to evaluate them on sentence-level semantic tasks. Preliminary results show that by using the grammar, comparative improvements are achieved over some LLMs. However, it is observed that to achieve more significant improvement, grammars that model the Nawatl language even more effectively are required.
- Abstract(参考訳): 本稿では、Nawatl言語のための文脈自由文法(CFG)を紹介する。
ナワトル (Nawatl) またはナワトル (Nahuatl) は、$\pi$-Language型(すなわち、ほとんどデジタルリソースを持たない言語)のアメリンディアン言語である。
ここでの目的は、言語モデルトレーニングで利用可能なコーパスを増やすために、文法的に正しい人工文をかなりの数生成することである。
文法がNawatlのコーパスを著しく拡張し、それを $\pi$-\textsc{yalli} と呼びます。
このコーパスにより、FastTextのようなアルゴリズムを訓練し、文レベルのセマンティックタスクで評価することができる。
予備的な結果は、文法を用いることで、いくつかのLLMに対して比較改善が達成されることを示している。
しかし、より顕著な改善を達成するためには、より効果的にナワトル語をモデル化する文法が必要であることが観察された。
関連論文リスト
- $π$-yalli: un nouveau corpus pour le nahuatl [0.8247755416642547]
NAHU$2$プロジェクトは、機械学習に適応した$pi$-YALLIコーパスを構築することを目的とした、フランスとメキシコのコラボレーションである。
$pi$-YALLIコーパスは、Nahuatl言語のためのコンピュータリソースの開発に使用される。
論文 参考訳(メタデータ) (2024-12-20T12:03:10Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for
Language Education [7.517366022163375]
GrammarTaggerは、入力テキストを与えられたオープンソースの文法プロファイラで、言語教育に有用な文法的特徴を特定します。
モデルアーキテクチャにより、スパンとそのラベルで注釈付けされた少量のテキストから学ぶことができる。
また,その読解困難度と文法的特徴を指標とした言語学習教材の検索エンジン octanove learn を構築した。
論文 参考訳(メタデータ) (2021-04-07T15:31:20Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。