Fugu-MT 論文翻訳(概要): How communicatively optimal are exact numeral systems? Once more on lexicon size and morphosyntactic complexity

論文の概要: How communicatively optimal are exact numeral systems? Once more on lexicon size and morphosyntactic complexity

arxiv url: http://arxiv.org/abs/2602.20372v1
Date: Mon, 23 Feb 2026 21:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.535558
Title: How communicatively optimal are exact numeral systems? Once more on lexicon size and morphosyntactic complexity
Title（参考訳）: 正確な数系はどの程度コミュニケーションが最適か?
Authors: Chundra Cathcart, Arne Rubehn, Katja Bocklage, Luca Ciucci, Kellen Parker van Dam, Alžběta Kučerová, Jekaterina Mažara, Carlo Y. Meloni, David Snee, Johann-Mattis List,
Abstract要約: 世界の言語の多くは、予想よりも決定的に効率が低いことが示されています。本研究は, 数値システムおよび言語進化研究における本研究の意義について概説する。
参考スコア（独自算出の注目度）: 4.019685228421653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research argues that exact recursive numeral systems optimize communicative efficiency by balancing a tradeoff between the size of the numeral lexicon and the average morphosyntactic complexity (roughly length in morphemes) of numeral terms. We argue that previous studies have not characterized the data in a fashion that accounts for the degree of complexity languages display. Using data from 52 genetically diverse languages and an annotation scheme distinguishing between predictable and unpredictable allomorphy (formal variation), we show that many of the world's languages are decisively less efficient than one would expect. We discuss the implications of our findings for the study of numeral systems and linguistic evolution more generally.
Abstract（参考訳）: 最近の研究では、正確な再帰的な数字体系は、数字の語彙の大きさと数項の平均的形態合成複雑性(大まかに長さ)の間のトレードオフをバランスさせることで、コミュニケーション効率を最適化すると主張している。従来の研究では、複雑性言語の表示度を考慮に入れた方法では、データが特徴付けられていないと我々は論じている。 52の遺伝的多様性言語からのデータと予測不可能なアロモルフィ(形式的変動)を区別するアノテーションスキームを用いて、世界の言語の多くは、予想するよりも決定的に効率が低いことを示す。本研究は, 数値システムおよび言語進化研究における本研究の意義について概説する。

関連論文リスト

Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles [7.688377257258402]
言語モデル (LLMs) は言語-数学のパズルと、言語間数系を含む。言語における数値の言語的側面と数学的側面を解き放つ一連の実験を通して, LLM にとってなぜこの課題が難しいのかを考察する。人間のスケールデータにおける暗黙のパターンから構成規則を柔軟に推論する能力は、現在の推論モデルにとってオープンな課題である。
論文参考訳（メタデータ） (2025-06-16T18:09:38Z)
Annotating and Inferring Compositional Structures in Numeral Systems Across Languages [0.841650621412]
本稿では,数値アノテーションの簡易かつ効果的な符号化方式と,コンピュータ支援方式による数値システムのコーディングを支援するワークフローを提案する。試料を網羅的に分析し,基礎構造と表面形態構造との系統的比較に着目する。サブワードトークン化アルゴリズムは,低リソースシナリオにおける形態素の発見には有効ではないことを示す。
論文参考訳（メタデータ） (2025-03-03T15:00:36Z)
Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文参考訳（メタデータ） (2024-11-21T15:06:51Z)
Correlation Does Not Imply Compensation: Complexity and Irregularity in the Lexicon [48.00488140516432]
形態的不規則性と音韻的複雑性との間に正の相関が認められた。また,単語長と形態的不規則性の負の関係の弱い証拠も見出した。
論文参考訳（メタデータ） (2024-06-07T18:09:21Z)
A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか? 本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文参考訳（メタデータ） (2024-04-06T07:10:47Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文参考訳（メタデータ） (2023-02-24T15:48:23Z)
Modeling Target-Side Morphology in Neural Machine Translation: A Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文参考訳（メタデータ） (2022-03-25T10:13:20Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Probing for Multilingual Numerical Understanding in Transformer-Based Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文参考訳（メタデータ） (2020-10-13T19:56:02Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文参考訳（メタデータ） (2019-04-04T02:03:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。