論文の概要: On the Proper Treatment of Tokenization in Psycholinguistics
- arxiv url: http://arxiv.org/abs/2410.02691v3
- Date: Fri, 06 Dec 2024 09:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:53:53.323194
- Title: On the Proper Treatment of Tokenization in Psycholinguistics
- Title(参考訳): 心理言語学におけるトークン化の適正処理について
- Authors: Mario Giulianelli, Luca Malagutti, Juan Luis Gastaldi, Brian DuSell, Tim Vieira, Ryan Cotterell,
- Abstract要約: 論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
- 参考スコア(独自算出の注目度): 53.960910019072436
- License:
- Abstract: Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.
- Abstract(参考訳): 言語モデルは、例えば、その領域を視線で見ることによって、言語モデルの下での関心領域(文字のサブストリング)の負の対数確率(副次的)と、読者が経験する認知的コストとを関連付ける理論をテストするために、計算心理学において広く用いられている。
しかし、近代言語モデルの心理言語学研究への応用は、モデルの訓練の中間段階としてトークン化を用いるプラクティスによって複雑である。
結果として、文字列の1つではなく、トークン文字列の1つが言語モデルになる。
興味深いことに、興味のある領域は一般的にこれらのトークン文字列と不一致である。
この論文は、トークンレベルの言語モデルは、ある関心領域の次数を計算するために心理言語学研究で使われる前に、(ほぼ)文字レベルの言語モデルにマージするべきであると論じている。
トークンレベルモデルを文字レベルにマージするという提案は、トークン化スキームとは無関係に、このミスアライメント問題を解決する。
実験により,興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域が発見された。
関連論文リスト
- Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Linguistically inspired morphological inflection with a sequence to
sequence model [19.892441884896893]
我々の研究課題は、ニューラルネットワークが反射生成のための屈折形態を学習できるかどうかである。
我々は、この仮説をテストするために、屈折コーパスと単一の層Seq2seqモデルを使用している。
キャラクタ・ツー・キャラクタとインフレクションアフィクスをキャラクタブロックとして予測することにより,文字形態に基づくモデルでインフレクションを生成する。
論文 参考訳(メタデータ) (2020-09-04T08:58:42Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。