Fugu-MT 論文翻訳(概要): Frequency matters: Modeling irregular morphological patterns in Spanish with Transformers

論文の概要: Frequency matters: Modeling irregular morphological patterns in Spanish with Transformers

arxiv url: http://arxiv.org/abs/2410.21013v2
Date: Fri, 13 Dec 2024 12:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.660747
Title: Frequency matters: Modeling irregular morphological patterns in Spanish with Transformers
Title（参考訳）: 周波数問題:変圧器を用いたスペイン語における不規則形態パターンのモデル化
Authors: Akhilesh Kakolu Ramarao, Kevin Tang, Dinah Baer-Henney,
Abstract要約: 本稿では,変圧器を用いたニューラルネットワークの学習行動について,不規則な摂動パラダイムに関して評価する。我々は、スペイン語動詞のコーパスでモデルを訓練し、入力に基づいて訓練されたモデルと(不規則な)単語の増分分布と比較する。我々の実験では、周波数条件によって、モデルが驚くほど不規則なパターンを学習できることが示されている。
参考スコア（独自算出の注目度）: 0.8602553195689513
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The present paper evaluates the learning behaviour of a transformer-based neural network with regard to an irregular inflectional paradigm. We apply the paradigm cell filling problem to irregular patterns. We approach this problem using the morphological reinflection task and model it as a character sequence-to-sequence learning problem. The test case under investigation are irregular verbs in Spanish. Besides many regular verbs in Spanish L-shaped verbs the first person singular indicative stem irregularly matches the subjunctive paradigm, while other indicative forms remain unaltered. We examine the role of frequency during learning and compare models under differing input frequency conditions. We train the model on a corpus of Spanish with a realistic distribution of regular and irregular verbs to compare it with models trained on input with augmented distributions of (ir)regular words. We explore how the neural models learn this L-shaped pattern using post-hoc analyses. Our experiments show that, across frequency conditions, the models are surprisingly capable of learning the irregular pattern. Furthermore, our post-hoc analyses reveal the possible sources of errors. All code and data are available at \url{https://anonymous.4open.science/r/modeling_spanish_acl-7567/} under MIT license.
Abstract（参考訳）: 本稿では,変圧器を用いたニューラルネットワークの学習行動について,不規則な摂動パラダイムに関して評価する。不規則なパターンにパラダイムセル充填問題を応用する。形態的再帰タスクを用いてこの問題にアプローチし,それを文字列からシーケンスへの学習問題としてモデル化する。調査中のテストケースはスペイン語で不規則な動詞である。スペイン語のL字形動詞の多くの正規動詞の他に、最初の人称単数形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形形学習中の周波数の役割について検討し,異なる入力周波数条件下でのモデルの比較を行った。我々は、正規動詞と不規則動詞の現実的な分布を持つスペイン語のコーパスでモデルを訓練し、入力に基づいて訓練されたモデルと(不規則単語の増分分布と比較する。ニューラルネットワークがL字型パターンをどのように学習するかを,ポストホック解析を用いて検討する。我々の実験では、周波数条件によって、モデルが驚くほど不規則なパターンを学習できることが示されている。さらに, ポストホック解析により, エラーの原因が明らかとなった。すべてのコードとデータはMITライセンス下で \url{https://anonymous.4open.science/r/modeling_spanish_acl-7567/} で利用可能である。

関連論文リスト

Evaluating the cognitive reality of Spanish irregular morphomic patterns: Humans vs. Transformers [0.8602553195689513]
本研究では,スペインの不規則形態素パターンの認知的妥当性について検討した。トランスフォーマーモデルがヒト様の感度をモルフォムに再現できるかどうかを, 従来のヒト研究と同じ分析枠組みを用いて評価した。
論文参考訳（メタデータ） (2025-07-29T07:40:32Z)
Semantics drives analogical change in Germanic strong verb paradigms: a phylogenetic study [45.11082946405984]
いくつかのゲルマン語では、前駆体形と過去のパルティップルによって共有される茎の同型性に対するより親和性が高い。本研究では,過去時制が過去分詞にまで拡張された状況において,この変化パターンの長期的嗜好がより大きいことを示す。
論文参考訳（メタデータ） (2025-02-24T21:36:15Z)
Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
Testing learning hypotheses using neural networks by manipulating learning data [20.525923251193472]
ニューラルネットワーク言語モデルでは、人間が表示するものと類似した受動的制約を学習できることが示される。動詞が受動的に現れる頻度は受動性に大きな影響を及ぼすが、動詞の意味論は影響しない。
論文参考訳（メタデータ） (2024-07-05T15:41:30Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
Morphological Inflection with Phonological Features [7.245355976804435]
本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
論文参考訳（メタデータ） (2023-06-21T21:34:39Z)
Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文参考訳（メタデータ） (2022-11-15T05:22:40Z)
How do we get there? Evaluating transformer neural networks as cognitive models for English past tense inflection [0.0]
私たちは、このタスクの振る舞いを調べるために、異なる設定のトランスフォーマーモデルセットをトレーニングします。モデルの性能はタイプ周波数と比に大きく影響されるが、トークン周波数と比には影響しない。変圧器モデルは動詞の規則性の抽象的なカテゴリについてある程度の学習レベルを示すが、その性能は人間のデータによく適合しない。
論文参考訳（メタデータ） (2022-10-17T15:13:35Z)
Modeling Target-Side Morphology in Neural Machine Translation: A Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文参考訳（メタデータ） (2022-03-25T10:13:20Z)
Falling Through the Gaps: Neural Architectures as Models of Morphological Rule Learning [0.0]
形態素規則学習のモデルとしてトランスフォーマーを評価した。英語、ドイツ語、ロシア語のRecurrent Neural Networks(RNN)と比較します。
論文参考訳（メタデータ） (2021-05-08T14:48:29Z)
Can a Transformer Pass the Wug Test? Tuning Copying Bias in Neural Morphological Inflection Models [9.95909045828344]
より効果的にするためには、幻覚過程は個々の文字や幹よりも音節のような長さに注意を払う必要がある。トレーニングデータとテストデータが補題に重複しない場合に、従来のデータ幻覚法よりも幻覚モデルで有意なパフォーマンス改善を報告します。
論文参考訳（メタデータ） (2021-04-13T19:51:21Z)
Do RNN States Encode Abstract Phonological Processes? [9.148410930089502]
連続列列モデルはしばしば17の異なる子音階調過程をRNNの少数の次元で符号化する。また,これらの次元においてアクティベーションを拡大することにより,子音階調の発生と階調の方向を制御できることも示す。
論文参考訳（メタデータ） (2021-04-01T22:24:39Z)
Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文参考訳（メタデータ） (2020-12-30T20:40:48Z)
Investigating Cross-Linguistic Adjective Ordering Tendencies with a Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文参考訳（メタデータ） (2020-10-09T18:27:55Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
Consistency of a Recurrent Language Model With Respect to Incomplete Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文参考訳（メタデータ） (2020-02-06T19:56:15Z)
A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文参考訳（メタデータ） (2019-04-04T02:03:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。