論文の概要: Frequency effects in Linear Discriminative Learning
- arxiv url: http://arxiv.org/abs/2306.11044v2
- Date: Mon, 18 Mar 2024 10:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:10:08.980406
- Title: Frequency effects in Linear Discriminative Learning
- Title(参考訳): 線形識別学習における周波数効果
- Authors: Maria Heitmeier, Yu-Ying Chuang, Seth D. Axen, R. Harald Baayen,
- Abstract要約: 形態と意味間の効率的かつ周波数インフォームドマッピングがいかに得られるかを示す(周波数インフォームド・ラーニング; FIL)。
FILは比較的低い型と高いトークン精度を示し、モデルが日々の生活の中で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。
本研究は,学習モデルにおける周波数効果を効率的にシミュレートする方法を示し,認知モデルにおける低頻度単語の最適な説明法について疑問を投げかけるものである。
- 参考スコア(独自算出の注目度): 0.36248657646376703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word frequency is a strong predictor in most lexical processing tasks. Thus, any model of word recognition needs to account for how word frequency effects arise. The Discriminative Lexicon Model (DLM; Baayen et al., 2018a, 2019) models lexical processing with linear mappings between words' forms and their meanings. So far, the mappings can either be obtained incrementally via error-driven learning, a computationally expensive process able to capture frequency effects, or in an efficient, but frequency-agnostic solution modelling the theoretical endstate of learning (EL) where all words are learned optimally. In this study we show how an efficient, yet frequency-informed mapping between form and meaning can be obtained (Frequency-informed learning; FIL). We find that FIL well approximates an incremental solution while being computationally much cheaper. FIL shows a relatively low type- and high token-accuracy, demonstrating that the model is able to process most word tokens encountered by speakers in daily life correctly. We use FIL to model reaction times in the Dutch Lexicon Project (Keuleers et al., 2010) and find that FIL predicts well the S-shaped relationship between frequency and the mean of reaction times but underestimates the variance of reaction times for low frequency words. FIL is also better able to account for priming effects in an auditory lexical decision task in Mandarin Chinese (Lee, 2007), compared to EL. Finally, we used ordered data from CHILDES (Brown, 1973; Demuth et al., 2006) to compare mappings obtained with FIL and incremental learning. The mappings are highly correlated, but with FIL some nuances based on word ordering effects are lost. Our results show how frequency effects in a learning model can be simulated efficiently, and raise questions about how to best account for low-frequency words in cognitive models.
- Abstract(参考訳): 単語頻度は、ほとんどの語彙処理タスクにおいて強力な予測器である。
したがって、どんな単語認識モデルでも、単語の周波数効果がどのように生じるかを考慮する必要がある。
識別辞書モデル (DLM; Baayen et al , 2018a, 2019) は、単語の形式とその意味を線形にマッピングした語彙処理をモデル化する。
これまでのところ、これらのマッピングは、誤り駆動学習(英語版)によって段階的に得られるか、あるいは全ての単語が最適に学習される理論的な学習状態(EL)をモデル化する、効率的だが周波数に依存しない計算コストの高いプロセスである。
本研究では, 形式と意味の効率よく, 周波数インフォームドマッピングが実現可能であることを示す(周波数インフォームド学習; FIL)。
FILは計算コストをはるかに安くしながら、インクリメンタルな解をよく近似していることが分かりました。
FILは比較的低い型と高いトークン精度を示し、モデルが日々の生活の中で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。
我々は、オランダのLexicon Project (Keuleers et al , 2010) において、FILを用いて反応時間をモデル化し、FILが周波数と反応時間の平均の間のS字型関係を適切に予測するが、低頻度語に対する反応時間のばらつきを過小評価する。
FILは,マンダリン中国語(Lee, 2007)の聴覚語彙決定タスクにおいて,ELと比較してプライミング効果を考慮しやすくしている。
最後に, CHILDES (Brown, 1973; Demuth et al , 2006) の順序データを用いて, FIL と漸進学習を用いて得られた写像を比較した。
写像は高い相関性を持つが、FILでは単語順序効果に基づくニュアンスの一部が失われる。
本研究は,学習モデルにおける周波数効果を効率的にシミュレートする方法を示し,認知モデルにおける低頻度単語の最適な説明法について疑問を投げかけるものである。
関連論文リスト
- What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.71625297655583]
MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文 参考訳(メタデータ) (2024-11-04T19:05:49Z) - Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - What do neural networks learn in image classification? A frequency
shortcut perspective [3.9858496473361402]
本研究では,ニューラルネットワーク(NN)における周波数ショートカットの学習力学を実験的に研究する。
NNは、分類のための単純な解を見つける傾向があり、訓練中に最初に何を学ぶかは、最も特徴的な周波数特性に依存する。
本稿では,クラスワイズ周波数特性を測定するための指標と,周波数ショートカットの同定方法を提案する。
論文 参考訳(メタデータ) (2023-07-19T08:34:25Z) - Unsupervised Sentence Representation Learning with Frequency-induced
Adversarial Tuning and Incomplete Sentence Filtering [14.085826003974187]
SLT-FAI(SLT-FAI)を用いた文表現学習を提案する。
PLMは、事前学習したコーパスからの単語の周波数情報に敏感であり、異方性埋め込み空間となる。
いくつかの低頻度単語をランダムにマスキングすることで、原文と不完全文の埋め込みを識別するために、情報識別器を組み込んだ。
論文 参考訳(メタデータ) (2023-05-15T13:59:23Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Robust Learning with Frequency Domain Regularization [1.370633147306388]
モデルのフィルタの周波数スペクトルを制約し,新しい正規化手法を提案する。
本研究では,(1)対向的摂動を抑えること,(2)異なるアーキテクチャにおける一般化のギャップを小さくすること,(3)微調整を伴わない伝達学習シナリオにおける一般化能力を向上させることによる正規化の有効性を実証する。
論文 参考訳(メタデータ) (2020-07-07T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。