論文の概要: Tigrinya Number Verbalization: Rules, Algorithm, and Implementation
- arxiv url: http://arxiv.org/abs/2601.03403v1
- Date: Tue, 06 Jan 2026 20:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.07179
- Title: Tigrinya Number Verbalization: Rules, Algorithm, and Implementation
- Title(参考訳): Tigrinyaナンバーバーバリゼーション:ルール、アルゴリズム、実装
- Authors: Fitsum Gaim, Issayas Tesfamariam,
- Abstract要約: この研究は、話されるティグリニャにおける数値の表現を規定する標準規則を文書化している。
数対語変換のための公式アルゴリズムを提供し、オープンソース実装をリリースする。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a systematic formalization of Tigrinya cardinal and ordinal number verbalization, addressing a gap in computational resources for the language. This work documents the canonical rules governing the expression of numerical values in spoken Tigrinya, including the conjunction system, scale words, and special cases for dates, times, and currency. We provide a formal algorithm for number-to-word conversion and release an open-source implementation. Evaluation of frontier large language models (LLMs) reveals significant gaps in their ability to accurately verbalize Tigrinya numbers, underscoring the need for explicit rule documentation. This work serves language modeling, speech synthesis, and accessibility applications targeting Tigrinya-speaking communities.
- Abstract(参考訳): 本稿では,Tigrinya 基数と順序数言語を体系的に定式化し,言語に対する計算資源のギャップに対処する。
この研究は、タイグリニャ語における数字の表現を規定する標準規則を文書化しており、これには、接続システム、スケールワード、日付、時刻、通貨の特別なケースが含まれる。
数対語変換のための公式アルゴリズムを提供し、オープンソース実装をリリースする。
Frontier Large Language Model (LLMs) の評価は、Tigrinyaの数値を正確に動詞化する能力に重大なギャップがあることを示し、明示的なルール文書の必要性を強調している。
この研究は、言語モデリング、音声合成、およびティグリニャ語を話すコミュニティをターゲットにしたアクセシビリティアプリケーションを提供する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。
以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。