論文の概要: Character-aware Transformers Learn an Irregular Morphological Pattern Yet None Generalize Like Humans
- arxiv url: http://arxiv.org/abs/2602.14100v1
- Date: Sun, 15 Feb 2026 11:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.654502
- Title: Character-aware Transformers Learn an Irregular Morphological Pattern Yet None Generalize Like Humans
- Title(参考訳): 文字認識型トランスフォーマーは不規則な形態パターンを学習するが、人間のように一般化しない
- Authors: Akhilesh Kakolu Ramarao, Kevin Tang, Dinah Baer-Henney,
- Abstract要約: エンコーダ・デコーダモデルが不規則なパターンを取得可能であることを示すが、それらが人間のようなパターンを一般化する証拠は混在している。
本研究では, スペイン語のemphL型形態素を用いて, 一人称単数指示詞のみがその茎をすべての部分接形と共有する。
いずれのモデルも人間のパターンを再現せず、統計的パターンの再現と形態的抽象化のギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 8.033684021402165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Whether neural networks can serve as cognitive models of morphological learning remains an open question. Recent work has shown that encoder-decoder models can acquire irregular patterns, but evidence that they generalize these patterns like humans is mixed. We investigate this using the Spanish \emph{L-shaped morphome}, where only the first-person singular indicative (e.g., \textit{pongo} `I put') shares its stem with all subjunctive forms (e.g., \textit{ponga, pongas}) despite lacking apparent phonological, semantic, or syntactic motivation. We compare five encoder-decoder transformers varying along two dimensions: sequential vs. position-invariant positional encoding, and atomic vs. decomposed tag representations. Positional encoding proves decisive: position-invariant models recover the correct L-shaped paradigm clustering even when L-shaped verbs are scarce in training, whereas sequential positional encoding models only partially capture the pattern. Yet none of the models productively generalize this pattern to novel forms. Position-invariant models generalize the L-shaped stem across subjunctive cells but fail to extend it to the first-person singular indicative, producing a mood-based generalization rather than the L-shaped morphomic pattern. Humans do the opposite, generalizing preferentially to the first-person singular indicative over subjunctive forms. None of the models reproduce the human pattern, highlighting the gap between statistical pattern reproduction and morphological abstraction.
- Abstract(参考訳): ニューラルネットワークが形態学学習の認知モデルとして機能するかどうかは、未解決の問題である。
近年の研究では、エンコーダ・デコーダモデルが不規則なパターンを取得できることが示されているが、それらが人間のようなパターンを一般化する証拠は混在している。
スペイン語の「emph{L-shaped morphome}」では、音韻的・意味的・統語的モチベーションが欠如しているにもかかわらず、一対一の特異表現(e g , \textit{pongo} `I put')のみがすべての部分接続形(e g , \textit{ponga, pongas})でその茎を共有する。
逐次対位置不変位置符号化とアトミック対分解タグ表現の2つの次元に沿って変化する5つのエンコーダ・デコーダ変換器を比較した。
位置不変モデルは、訓練中にL字型の動詞が不足している場合でも、正しいL字型のパラダイムクラスタリングを復元する。
しかし、どちらのモデルもこのパターンを新しい形式に生産的に一般化するものではない。
位置不変モデルは、L字型の茎を結合細胞全体に一般化するが、L字型の形態素パターンではなく、気分に基づく一般化を生成する一対一の特異表現に拡張することができない。
人間は反対し、従属形よりも一対一の特異な指示を優先的に一般化する。
いずれのモデルも人間のパターンを再現せず、統計的パターンの再現と形態的抽象化のギャップを浮き彫りにしている。
関連論文リスト
- Frequency matters: Modeling irregular morphological patterns in Spanish with Transformers [0.8602553195689513]
我々はスペイン語の動詞パラダイムに注目し、ある動詞は不規則なL字型パターンに従う。
変圧器モデルにおける正規パターンと不規則パターンの取得における入力周波数の役割について検討する。
論文 参考訳(メタデータ) (2024-10-28T13:36:46Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - How do we get there? Evaluating transformer neural networks as cognitive
models for English past tense inflection [0.0]
私たちは、このタスクの振る舞いを調べるために、異なる設定のトランスフォーマーモデルセットをトレーニングします。
モデルの性能はタイプ周波数と比に大きく影響されるが、トークン周波数と比には影響しない。
変圧器モデルは動詞の規則性の抽象的なカテゴリについてある程度の学習レベルを示すが、その性能は人間のデータによく適合しない。
論文 参考訳(メタデータ) (2022-10-17T15:13:35Z) - Augmenting Implicit Neural Shape Representations with Explicit
Deformation Fields [95.39603371087921]
入射神経表現は、ニューラルネットワークのゼロレベルセットとして形状収集を学ぶための最近のアプローチである。
我々は,暗黙的ニューラル表現に対する変形認識正規化を提唱し,遅延コードの変化として可塑性変形を生成することを目的とした。
論文 参考訳(メタデータ) (2021-08-19T22:07:08Z) - SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural
Implicit Shapes [117.76767853430243]
SNARFは多角形メッシュに対する線形ブレンドスキンの利点とニューラル暗黙表面の利点を組み合わせたものである。
反復ルート探索を用いて任意の変形点のすべての正準対応を探索するフォワードスキンモデルを提案する。
最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。
論文 参考訳(メタデータ) (2021-04-08T17:54:59Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。