論文の概要: Evaluating Morphological Plausibility of Subword Tokenization via Statistical Alignment with Morpho-Syntactic Features
- arxiv url: http://arxiv.org/abs/2601.18536v1
- Date: Mon, 26 Jan 2026 14:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.874813
- Title: Evaluating Morphological Plausibility of Subword Tokenization via Statistical Alignment with Morpho-Syntactic Features
- Title(参考訳): モーフォ・シンタクティック特徴を用いた統計的アライメントによるサブワードトークン化のモルフォロジー的妥当性の評価
- Authors: Abishek Stephen, Jindřich Libovický,
- Abstract要約: サブワードセグメンテーションの形態的妥当性を評価するための新しい指標を提案する。
一般的に用いられている形態素境界や検索Fスコアとは異なり,本手法では形態素シンタクティックな特徴を用いる。
本実験は, 従来の形態素境界リコールと相関するが, 異なる形態素系を持つ言語にまたがってより広く適用可能であることを示す。
- 参考スコア(独自算出の注目度): 0.35604294978773265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel metric for the evaluation of the morphological plausibility of subword segmentation. Unlike the typically used morpheme boundary or retrieval F-score, which requires gold segmentation data that is either unavailable or of inconsistent quality across many languages, our approach utilizes morpho-syntactic features. These are available in resources such as Universal Dependencies or UniMorph for a much wider range of languages. The metric works by probabilistically aligning subwords with morphological features through an IBM Model 1. Our experiments show that the metric correlates well with traditional morpheme boundary recall while being more broadly applicable across languages with different morphological systems.
- Abstract(参考訳): サブワードセグメンテーションの形態的妥当性を評価するための新しい指標を提案する。
一般的に使われている形態素境界や検索Fスコアとは異なり、多くの言語で利用できない、あるいは一貫性のない品質のゴールドセグメンテーションデータを必要とする。
これらはUniversal DependenciesやUniMorphといった幅広い言語で利用できる。
このメトリクスはIBM Model 1を通じて、サブワードと形態的特徴を確率的に整合させることによって機能する。
本実験は, 従来の形態素境界リコールと相関するが, 異なる形態素系を持つ言語にまたがってより広く適用可能であることを示す。
関連論文リスト
- Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Mapping 'when'-clauses in Latin American and Caribbean languages: an experiment in subtoken-based typology [0.0]
本稿は,ラテンアメリカとカリブ海の言語間における時間的順序付け("when'-clauses")の表現の変動について考察する。
この地域の言語に基づいて計算された確率論的意味写像を提示し、レックス化されたコネクタのみを使用する多くの世界の言語に対する偏見を避ける。
このアプローチにより、レックス化されたコネクタに加えて、形態的節間リンク装置をキャプチャでき、時間的部分座標のタイプ論的変動の大規模かつ戦略に依存しない分析を行うことができる。
論文 参考訳(メタデータ) (2024-04-28T17:43:24Z) - Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - How Suitable Are Subword Segmentation Strategies for Translating
Non-Concatenative Morphology? [26.71325671956197]
各種形態素現象のセグメンテーション戦略を評価するためのテストスイートを設計する。
形態学的に複雑な表面表現を解析・生成する学習は依然として困難である。
論文 参考訳(メタデータ) (2021-09-02T17:23:21Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。