論文の概要: Is deeper always better? Replacing linear mappings with deep learning networks in the Discriminative Lexicon Model
- arxiv url: http://arxiv.org/abs/2410.04259v1
- Date: Sat, 5 Oct 2024 18:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:49:52.184068
- Title: Is deeper always better? Replacing linear mappings with deep learning networks in the Discriminative Lexicon Model
- Title(参考訳): 深度は常に良いか? 識別的語彙モデルにおける深度学習ネットワークによる線形写像の置き換え
- Authors: Maria Heitmeier, Valeria Schmidt, Hendrik P. A. Lensch, R. Harald Baayen,
- Abstract要約: この研究は、ディープラーニングが、線形手法以上の話者によって解決されるべき学習問題をより深く理解する助けになるかどうかを問うものである。
本研究では,線形写像を高密度ニューラルネットワークに置き換える(Deep Discriminative Learning, DDL)。
DDLは、英語とオランダ語からの大規模で多様なデータセットに対してより正確なマッピングを提供するが、必ずしもエストニア語と台湾・マンダリンのためのものではない。
- 参考スコア(独自算出の注目度): 6.185187617936347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep learning models have increasingly been used in cognitive modelling of language. This study asks whether deep learning can help us to better understand the learning problem that needs to be solved by speakers, above and beyond linear methods. We utilise the Discriminative Lexicon Model (DLM, Baayen et al., 2019), which models comprehension and production with mappings between numeric form and meaning vectors. While so far, these mappings have been linear (Linear Discriminative Learning, LDL), in the present study we replace them with deep dense neural networks (Deep Discriminative Learning, DDL). We find that DDL affords more accurate mappings for large and diverse datasets from English and Dutch, but not necessarily for Estonian and Taiwan Mandarin. DDL outperforms LDL in particular for words with pseudo-morphological structure such as slend+er. Applied to average reaction times, we find that DDL is outperformed by frequency-informed linear mappings (FIL). However, DDL trained in a frequency-informed way ('frequency-informed' deep learning, FIDDL) substantially outperforms FIL. Finally, while linear mappings can very effectively be updated from trial-to-trial to model incremental lexical learning (Heitmeier et al., 2023), deep mappings cannot do so as effectively. At present, both linear and deep mappings are informative for understanding language.
- Abstract(参考訳): 近年、ディープラーニングモデルは言語の認知モデル化にますます使われてきている。
この研究は、ディープラーニングが、線形手法以上の話者によって解決されるべき学習問題をより深く理解する助けになるかどうかを問うものである。
我々は、数値形式と意味ベクトルのマッピングによる理解と生産をモデル化する差別的語彙モデル(DLM, Baayen et al , 2019)を利用する。
これまでのところ、これらのマッピングは線形(Linear Discriminative Learning, LDL)であり、本研究では深層ニューラルネットワーク(Deep Discriminative Learning, DDL)に置き換える。
DDLは、英語とオランダ語からの大規模で多様なデータセットに対してより正確なマッピングを提供するが、必ずしもエストニア語と台湾・マンダリンのためのものではない。
DDLは、特にslend+erのような擬形態構造を持つ単語において、LDLよりも優れている。
平均反応時間に適用すると、DDLは周波数インフォームド・リニアマッピング(FIL)により優れることがわかった。
しかし、DDLは周波数インフォームド方式(「周波数インフォームド深層学習」、FIDDL)で訓練されており、FILよりもかなり優れている。
最後に、線形写像は、試行錯誤から漸進的な語彙学習(Heitmeier et al , 2023)まで非常に効果的に更新できるが、深層写像はそれを効果的に行うことはできない。
現在、線形写像と深度写像は言語を理解する上で有益である。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Frequency effects in Linear Discriminative Learning [0.36248657646376703]
形態と意味間の効率的かつ周波数インフォームドマッピングがいかに得られるかを示す(周波数インフォームド・ラーニング; FIL)。
FILは比較的低い型と高いトークン精度を示し、モデルが日々の生活の中で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。
本研究は,学習モデルにおける周波数効果を効率的にシミュレートする方法を示し,認知モデルにおける低頻度単語の最適な説明法について疑問を投げかけるものである。
論文 参考訳(メタデータ) (2023-06-19T16:15:46Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Deep Transform and Metric Learning Network: Wedding Deep Dictionary
Learning and Neural Networks [34.49034775978504]
1つの線形層とリカレントニューラルネットワーク(RNN)の組み合わせで各DL層を定式化できる新しいDDL手法を提案する。
提案する研究は,ニューラルネットワークとDDLに関する新たな知見を公開し,深層変換を共同学習するための新しい,効率的かつ競争的なアプローチと,推論アプリケーションのためのメトリクスを提供する。
論文 参考訳(メタデータ) (2020-02-18T22:04:11Z) - Learning Parities with Neural Networks [45.6877715768796]
本質的に非線形であるモデルのリーン性を示すための一歩を踏み出します。
特定の分布下では、疎パリティは深さ2のネットワーク上で適切な勾配によって学習可能であることを示す。
論文 参考訳(メタデータ) (2020-02-18T06:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。