Fugu-MT 論文翻訳(概要): Frequency effects in Linear Discriminative Learning

論文の概要: Frequency effects in Linear Discriminative Learning

arxiv url: http://arxiv.org/abs/2306.11044v1
Date: Mon, 19 Jun 2023 16:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 16:59:39.145219
Title: Frequency effects in Linear Discriminative Learning
Title（参考訳）: 線形判別学習における周波数効果
Authors: Maria Heitmeier, Yu-Ying Chuang, Seth D. Axen, R. Harald Baayen
Abstract要約: 形態と意味間の効率的かつ周波数インフォームドマッピングがいかに得られるかを示す(周波数インフォームド・ラーニング; FIL)。 FILは比較的低い型と高いトークン精度を示し、モデルが日々の生活の中で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。本研究は,学習モデルにおける周波数効果を閉形式解を用いて効率的にシミュレートする方法を示し,認知モデルにおける低頻度語を最適に説明する方法に関する疑問を提起する。
参考スコア（独自算出の注目度）: 0.802904964931021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Word frequency is a strong predictor in most lexical processing tasks. Thus, any model of word recognition needs to account for how word frequency effects arise. The Discriminative Lexicon Model (DLM; Baayen et al., 2018a, 2019) models lexical processing with linear mappings between words' forms and their meanings. So far, the mappings can either be obtained incrementally via error-driven learning, a computationally expensive process able to capture frequency effects, or in an efficient, but frequency-agnostic closed-form solution modelling the theoretical endstate of learning (EL) where all words are learned optimally. In this study we show how an efficient, yet frequency-informed mapping between form and meaning can be obtained (Frequency-informed learning; FIL). We find that FIL well approximates an incremental solution while being computationally much cheaper. FIL shows a relatively low type- and high token-accuracy, demonstrating that the model is able to process most word tokens encountered by speakers in daily life correctly. We use FIL to model reaction times in the Dutch Lexicon Project (Keuleers et al., 2010) and find that FIL predicts well the S-shaped relationship between frequency and the mean of reaction times but underestimates the variance of reaction times for low frequency words. FIL is also better able to account for priming effects in an auditory lexical decision task in Mandarin Chinese (Lee, 2007), compared to EL. Finally, we used ordered data from CHILDES (Brown, 1973; Demuth et al., 2006) to compare mappings obtained with FIL and incremental learning. The mappings are highly correlated, but with FIL some nuances based on word ordering effects are lost. Our results show how frequency effects in a learning model can be simulated efficiently by means of a closed-form solution, and raise questions about how to best account for low-frequency words in cognitive models.
Abstract（参考訳）: 単語頻度は、ほとんどの語彙処理タスクにおいて強い予測因子である。したがって、どんな単語認識モデルでも、単語の周波数効果がどのように生じるかを考慮する必要がある。識別辞書モデル (DLM; Baayen et al., 2018a, 2019) は、単語の形式とその意味を線形にマッピングした語彙処理をモデル化する。これまでのところ、これらのマッピングは、エラー駆動学習によって段階的に得られるか、あるいは全ての単語が最適に学習される理論的な学習のエンドステート(el)をモデル化する効率的だが周波数非依存のクローズドフォームソリューションによって得られる。本研究では, 形式と意味の効率よく, 周波数インフォームドマッピングが実現可能であることを示す(周波数インフォームド学習; FIL)。 FILは計算コストをはるかに安くしながら、インクリメンタルな解をよく近似している。 FILは比較的低い型と高いトークン精度を示し、モデルが日常生活で話者が遭遇するほとんどのワードトークンを正しく処理できることを示した。オランダ語 lexicon プロジェクト (keuleers et al., 2010) における反応時間のモデル化に fil を用いており,fil は周波数と反応時間の平均との関係をよく予測しているが,低頻度単語に対する反応時間のばらつきを過小評価している。 FILは,マンダリン中国語(Lee, 2007)の聴覚語彙決定タスクにおいて,ELと比較してプライミング効果を考慮しやすくしている。最後に, CHILDES (Brown, 1973; Demuth et al., 2006) の順序データを用いて, FIL と漸進学習を用いて得られた写像を比較した。マッピングは高い相関性を持つが、filでは単語の順序付け効果に基づくニュアンスが失われる。本研究は,学習モデルの頻度効果をクローズドフォーム法を用いて効率的にシミュレーションし,認知モデルにおける低頻度単語の最適な説明方法に関する疑問を提起する。

関連論文リスト

From Data to Knowledge: Evaluating How Efficiently Language Models Learn Facts [2.8785704488518773]
本研究では、異なるアーキテクチャとサイズの複数のモデルを分析し、すべて同じ事前学習データに基づいて訓練する。トレーニングコーパス内の事象をその周波数でアノテートすることにより、モデルの性能が事実周波数とどのように異なるかを検討する。以上の結果から,ほとんどのモデルが高周波の事実に類似しているが,低周波の事実に顕著に異なることが示唆された。
論文参考訳（メタデータ） (2025-06-20T11:10:24Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.71625297655583]
MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文参考訳（メタデータ） (2024-11-04T19:05:49Z)
Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。 Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-11-01T15:40:19Z)
Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文参考訳（メタデータ） (2024-10-15T10:09:57Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
What do neural networks learn in image classification? A frequency shortcut perspective [3.9858496473361402]
本研究では,ニューラルネットワーク(NN)における周波数ショートカットの学習力学を実験的に研究する。 NNは、分類のための単純な解を見つける傾向があり、訓練中に最初に何を学ぶかは、最も特徴的な周波数特性に依存する。本稿では,クラスワイズ周波数特性を測定するための指標と,周波数ショートカットの同定方法を提案する。
論文参考訳（メタデータ） (2023-07-19T08:34:25Z)
Unsupervised Sentence Representation Learning with Frequency-induced Adversarial Tuning and Incomplete Sentence Filtering [14.085826003974187]
SLT-FAI(SLT-FAI)を用いた文表現学習を提案する。 PLMは、事前学習したコーパスからの単語の周波数情報に敏感であり、異方性埋め込み空間となる。いくつかの低頻度単語をランダムにマスキングすることで、原文と不完全文の埋め込みを識別するために、情報識別器を組み込んだ。
論文参考訳（メタデータ） (2023-05-15T13:59:23Z)
Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。本研究では,このアプローチをニューラルLMの文脈で再考する。
論文参考訳（メタデータ） (2022-03-21T01:16:44Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。 Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文参考訳（メタデータ） (2021-04-21T12:55:52Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)
Robust Learning with Frequency Domain Regularization [1.370633147306388]
モデルのフィルタの周波数スペクトルを制約し,新しい正規化手法を提案する。本研究では,(1)対向的摂動を抑えること,(2)異なるアーキテクチャにおける一般化のギャップを小さくすること,(3)微調整を伴わない伝達学習シナリオにおける一般化能力を向上させることによる正規化の有効性を実証する。
論文参考訳（メタデータ） (2020-07-07T07:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。