論文の概要: Complexity counts: global and local perspectives on Indo-Aryan numeral systems
- arxiv url: http://arxiv.org/abs/2505.21510v1
- Date: Mon, 19 May 2025 09:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 22:39:42.353023
- Title: Complexity counts: global and local perspectives on Indo-Aryan numeral systems
- Title(参考訳): 複素数:インド・アーリア数系における大域的および局所的視点
- Authors: Chundra Cathcart,
- Abstract要約: 本稿では,言語間数字体系の類型論におけるインド・アーリア語の位置づけについて述べる。
これらの言語における複雑なシステムの持続性に寄与する言語的・非言語的要因について検討する。
我々はインド・アーリア語が世界の言語全体よりも決定的に複雑な数字体系を持っていることを実証した。
- 参考スコア(独自算出の注目度): 0.16317061277457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The numeral systems of Indo-Aryan languages such as Hindi, Gujarati, and Bengali are highly unusual in that unlike most numeral systems (e.g., those of English, Chinese, etc.), forms referring to 1--99 are highly non-transparent and are cannot be constructed using straightforward rules. As an example, Hindi/Urdu *iky\=anve* `91' is not decomposable into the composite elements *ek* `one' and *nave* `ninety' in the way that its English counterpart is. This paper situates Indo-Aryan languages within the typology of cross-linguistic numeral systems, and explores the linguistic and non-linguistic factors that may be responsible for the persistence of complex systems in these languages. Using cross-linguistic data from multiple databases, we develop and employ a number of cross-linguistically applicable metrics to quantifies the complexity of languages' numeral systems, and demonstrate that Indo-Aryan languages have decisively more complex numeral systems than the world's languages as a whole, though individual Indo-Aryan languages differ from each other in terms of the complexity of the patterns they display. We investigate the factors (e.g., religion, geographic isolation, etc.) that underlie complexity in numeral systems, with a focus on South Asia, in an attempt to develop an account of why complex numeral systems developed and persisted in certain Indo-Aryan languages but not elsewhere. Finally, we demonstrate that Indo-Aryan numeral systems adhere to certain general pressures toward efficient communication found cross-linguistically, despite their high complexity. We call for this somewhat overlooked dimension of complexity to be taken seriously when discussing general variation in cross-linguistic numeral systems.
- Abstract(参考訳): ヒンディー語、グジャラーティ語、ベンガル語などのインド・アーリア語の数字体系は、ほとんどの数字体系(例えば、英語、中国語など)とは異なり、1-99の形式は極めて不透明であり、単純な規則では構築できないという非常に珍しいものである。
例えば、Hindi/Urdu *iky\=anve* `91' は合成元 *ek* `one' と *nave* `ninety' に分解できない。
本稿では,言語間数体系の類型論におけるインド・アーリア語(Indo-Aryan language)の位置づけと,これらの言語における複雑なシステムの持続性に寄与する言語的・非言語的要因について考察する。
複数のデータベースから得られた言語間データを用いて、言語の数字システムの複雑さを定量化するために、言語間対応のメトリクスを多数開発し、Indo-Aryan言語が世界の言語全体よりも決定的に複雑な数字系を持っていることを実証する。
本研究は, 南アジアを中心に, 数体系の複雑さを弱める要因(宗教, 地理的孤立など)を考察し, 複雑な数体系がインド・アリアン諸語で発達し, 存続している理由を考察する。
最後に,Indo-Aryan数系は,その複雑度が高いにもかかわらず,言語横断的に見いだされた効率的な通信に対するある種の一般的な圧力に従属することを示した。
我々は、言語間数系の一般的なバリエーションについて議論する際に、このやや見過ごされた複雑さの次元を真剣に考えるように呼びかける。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - JWSign: A Highly Multilingual Corpus of Bible Translations for more
Diversity in Sign Language Processing [2.9936326613596775]
JWSignデータセットは98の手話言語で2,530時間の聖書翻訳で構成されている。
我々は、署名された言語や話し言葉の類型的関連性を考慮して、多言語システムを訓練する。
論文 参考訳(メタデータ) (2023-11-16T20:02:44Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。