論文の概要: Mind Your Moras: Orthography-Aware Error Analysis of Neural Japanese Morphological Generation
- arxiv url: http://arxiv.org/abs/2605.20043v2
- Date: Thu, 21 May 2026 23:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.698338
- Title: Mind Your Moras: Orthography-Aware Error Analysis of Neural Japanese Morphological Generation
- Title(参考訳): Mind Your Moras: Orthography-Aware Error Analysis of Neural Japanese Morphological Generation
- Authors: Wen Zhang,
- Abstract要約: 本報告では, 日本語の過去の形態変化の正書法に基づく誤り解析について述べる。
SIGMORPHON 2020 と 2023 の共有タスク規約に従ってフォーマットされたデータセットを用いて,過去センス形成における2つの文字レベルのシーケンス・ツー・シーケンスアーキテクチャの評価を行った。
高い集約精度にもかかわらず、モデルはヒラガナの特定の正書法特性を囲む体系的、言語学的に解釈可能な誤りを示す。
- 参考スコア(独自算出の注目度): 6.1031222024562695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an orthography-aware error analysis of Japanese past-tense morphological inflection, treating hiragana not merely as a transcriptional medium, but as a representational system encoding morphophonological distinctions that may influence model generalization. We evaluate two character-level sequence-to-sequence architectures on past-tense formation using datasets formatted according to the SIGMORPHON 2020 and 2023 shared task conventions. Despite high aggregate accuracy, models exhibit systematic, linguistically interpretable errors that cluster around specific orthographic properties of hiragana. We introduce a concise error taxonomy capturing seven primary failure modes and provide both quantitative and qualitative analyses. Gemination-related errors dominate residual failures, accounting for 75-80% of errors, particularly in verbs whose stems end in the vowel e and require gemination before the past-tense suffix. Error patterns remain highly consistent across architectures and random seeds, suggesting a robust interaction between orthographic representation, morphological structure, and data frequency effects in shaping model generalization. These results underscore the necessity of orthography-aware evaluation for understanding neural generalization in morphologically complex languages.
- Abstract(参考訳): 本報告では, ヒラガナを単に転写媒体として扱うだけでなく, モデル一般化に影響を及ぼす可能性のある形態素的区別を符号化した表現体系として, 過去の過去の形態変化を正書法で認識する誤り解析を行う。
SIGMORPHON 2020 と 2023 の共有タスク規約に従ってフォーマットされたデータセットを用いて,過去センス形成における2つの文字レベルのシーケンス・ツー・シーケンスアーキテクチャの評価を行った。
高い集約精度にもかかわらず、モデルはヒラガナの特定の正書法特性を囲む体系的、言語学的に解釈可能な誤りを示す。
本研究では,7つの一次故障モードを抽出し,定量的かつ定性的な解析を行う高精度な誤り分類法を提案する。
ゲーミネーション関連エラーは残差の75-80%を占めており、特に母音eの語幹が終端し、過去の接尾辞の前にゲーミネーションを必要とする動詞では、エラーの75-80%を占める。
エラーパターンは、アーキテクチャとランダムシードの間で非常に一貫性があり、整形モデル一般化における正書法表現、形態構造、およびデータ周波数効果の間の堅牢な相互作用を示唆している。
これらの結果は、形態学的に複雑な言語における神経一般化を理解するために、正書法を意識した評価の必要性を浮き彫りにした。
関連論文リスト
- Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction [6.531546527140474]
言語モデルは一般的に文法的なテキストを生成するが、特定の文脈で誤りを犯しやすい。
言語モデルにおける文法学習の中間段階をよりよく理解することは可能であることを示す。
言語モデルの振る舞いを解析するためにこのアプローチを採用することは、中間学習フェーズ、全体的なトレーニングダイナミクス、言語モデルによって学習された特定の一般化を理解するための強力なツールとなり得る、と我々は論じる。
論文 参考訳(メタデータ) (2025-10-28T19:59:26Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Morphological Inflection with Phonological Features [7.245355976804435]
本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。
我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
論文 参考訳(メタデータ) (2023-06-21T21:34:39Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文 参考訳(メタデータ) (2021-06-24T00:09:24Z) - Minimal Supervision for Morphological Inflection [8.532288965425805]
ラベル付きデータのブートストラップは,5つのラベル付きパラダイムに過ぎず,大量のラベル付きテキストが添付されています。
本手法は, 形態素系における2相配置の異なる規則性を利用する。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
論文 参考訳(メタデータ) (2021-04-17T11:07:36Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Evaluating Neural Morphological Taggers for Sanskrit [23.87775187927048]
Sanskrit上での4つの標準シーケンスラベリングモデルの有効性を評価する。
いくつかのニューラルモデルは、他のモデルよりも優れているが、これらのモデルすべてに対するエラーの一般的な原因の1つは、同期性である。
論文 参考訳(メタデータ) (2020-05-21T20:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。