論文の概要: Annotating and Inferring Compositional Structures in Numeral Systems Across Languages
- arxiv url: http://arxiv.org/abs/2503.01625v2
- Date: Tue, 04 Mar 2025 15:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:12.284178
- Title: Annotating and Inferring Compositional Structures in Numeral Systems Across Languages
- Title(参考訳): 言語にまたがる数理系における構成構造の注釈と推論
- Authors: Arne Rubehn, Christoph Rzymski, Luca Ciucci, Kellen Parker van Dam, Alžběta Kučerová, Katja Bocklage, David Snee, Abishek Stephen, Johann-Mattis List,
- Abstract要約: 本稿では,数値アノテーションの簡易かつ効果的な符号化方式と,コンピュータ支援方式による数値システムのコーディングを支援するワークフローを提案する。
試料を網羅的に分析し,基礎構造と表面形態構造との系統的比較に着目する。
サブワードトークン化アルゴリズムは,低リソースシナリオにおける形態素の発見には有効ではないことを示す。
- 参考スコア(独自算出の注目度): 0.841650621412
- License:
- Abstract: Numeral systems across the world's languages vary in fascinating ways, both regarding their synchronic structure and the diachronic processes that determined how they evolved in their current shape. For a proper comparison of numeral systems across different languages, however, it is important to code them in a standardized form that allows for the comparison of basic properties. Here, we present a simple but effective coding scheme for numeral annotation, along with a workflow that helps to code numeral systems in a computer-assisted manner, providing sample data for numerals from 1 to 40 in 25 typologically diverse languages. We perform a thorough analysis of the sample, focusing on the systematic comparison between the underlying and the surface morphological structure. We further experiment with automated models for morpheme segmentation, where we find allomorphy as the major reason for segmentation errors. Finally, we show that subword tokenization algorithms are not viable for discovering morphemes in low-resource scenarios.
- Abstract(参考訳): 世界の言語にまたがる多くのシステムは、それらの同期構造と、それらが現在の形でどのように進化したかを決定するダイアクロニックプロセスの両方に関して、魅力的な方法で異なる。
しかし、異なる言語間での数値システムの適切な比較のためには、基本特性の比較を可能にする標準化された形式でそれらをコーディングすることが重要である。
本稿では,25言語で1から40までの数値のサンプルデータを提供するとともに,数値アノテーションの簡易かつ効果的な符号化手法を提案する。
試料を網羅的に分析し,基礎構造と表面形態構造との系統的比較に着目する。
さらに、形態素分割の自動モデルを用いて実験を行い、アロモルファスをセグメンテーションエラーの主な原因とみなす。
最後に,低リソースシナリオにおける形態素の発見にはサブワードトークン化アルゴリズムが有効ではないことを示す。
関連論文リスト
- Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement [5.223020867766102]
異なるトークン化方式がスペイン語の複数形の数字合意にどのように影響するかを検討する。
形態的に整列したトークン化は他のトークン化方式と同様に機能する。
以上の結果から,形態的トークン化は性能に厳密には要求されないことが示唆された。
論文 参考訳(メタデータ) (2024-03-20T17:01:56Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Minimal Supervision for Morphological Inflection [8.532288965425805]
ラベル付きデータのブートストラップは,5つのラベル付きパラダイムに過ぎず,大量のラベル付きテキストが添付されています。
本手法は, 形態素系における2相配置の異なる規則性を利用する。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
論文 参考訳(メタデータ) (2021-04-17T11:07:36Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Probing for Multilingual Numerical Understanding in Transformer-Based
Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。
英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文 参考訳(メタデータ) (2020-10-13T19:56:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。