論文の概要: The Impact of Token Granularity on the Predictive Power of Language Model Surprisal
- arxiv url: http://arxiv.org/abs/2412.11940v1
- Date: Mon, 16 Dec 2024 16:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:22.998925
- Title: The Impact of Token Granularity on the Predictive Power of Language Model Surprisal
- Title(参考訳): 言語モデルの予測力に及ぼすトークン粒度の影響
- Authors: Byung-Doh Oh, William Schuler,
- Abstract要約: 認知モデリングにおいて見過ごされてきた要素の1つは、サブワードトークンの粒度である。
自然主義的読解時間を用いた実験は、トークンの粒度が副次的に与える影響を顕著に示している。
ガーデンパスの構成では、粗い粒度のトークンで訓練された言語モデルが、一般に臨界領域に対して高い確率を割り当てた。
- 参考スコア(独自算出の注目度): 15.073507986272027
- License:
- Abstract: Word-by-word language model surprisal is often used to model the incremental processing of human readers, which raises questions about how various choices in language modeling influence its predictive power. One factor that has been overlooked in cognitive modeling is the granularity of subword tokens, which explicitly encodes information about word length and frequency, and ultimately influences the quality of vector representations that are learned. This paper presents experiments that manipulate the token granularity and evaluate its impact on the ability of surprisal to account for processing difficulty of naturalistic text and garden-path constructions. Experiments with naturalistic reading times reveal a substantial influence of token granularity on surprisal, with tokens defined by a vocabulary size of 8,000 resulting in surprisal that is most predictive. In contrast, on garden-path constructions, language models trained on coarser-grained tokens generally assigned higher surprisal to critical regions, suggesting their increased sensitivity to syntax. Taken together, these results suggest a large role of token granularity on the quality of language model surprisal for cognitive modeling.
- Abstract(参考訳): 単語・バイ・ワード言語モデル(英語版)は、人間の読者の漸進的な処理をモデル化するためにしばしば用いられ、言語モデリングにおける様々な選択がその予測能力にどのように影響するかという疑問が提起される。
認知モデリングにおいて見過ごされてきた要素の1つは、単語の長さと頻度に関する情報を明示的にエンコードし、最終的に学習されるベクトル表現の品質に影響を与えるサブワードトークンの粒度である。
本稿では,トークンの粒度を操作し,自然主義的テキスト処理の難しさや園芸道構築の難しさを考慮し,その効果を評価する実験を行う。
自然主義的な読解時間を用いた実験は、トークンの粒度が副次的に与える影響を顕著に示し、トークンは8000の語彙サイズで定義され、結果として副次的になる。
対照的に、庭のパス構築では、粗い粒度のトークンで訓練された言語モデルが一般的に臨界領域に対して高い確率を割り当て、それらが構文に対する感受性を高めることを示唆している。
これらの結果から,認知モデルに準ずる言語モデルの品質に,トークンの粒度が果たす大きな役割が示唆された。
関連論文リスト
- On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。
本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。
論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文 参考訳(メタデータ) (2024-03-17T07:44:44Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z) - Linguistic Profiling of a Neural Language Model [1.0552465253379135]
本研究では,ニューラルネットワークモデル(NLM)が微調整前後に学習した言語知識について検討する。
BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向にある。
論文 参考訳(メタデータ) (2020-10-05T09:09:01Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。