論文の概要: Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar
- arxiv url: http://arxiv.org/abs/2505.19599v1
- Date: Mon, 26 May 2025 07:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.232696
- Title: Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar
- Title(参考訳): 日本語文法によって言語モデルが複雑化する不整合トークン化
- Authors: Andrew Gambardella, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 日本語の「第一人精神述語制限」文法点に直面する言語モデルの難易度を測定した。
さらに, 代用文法モデルを用いて, 代用文法パターンを用いて代用文法文を生成する場合, トークン化問題により最も自然な文が出力されることを防止できることを示す。
- 参考スコア(独自算出の注目度): 27.3347020320559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical methods for evaluating the performance of language models evaluate their ability to answer questions accurately. These evaluation metrics are acceptable for determining the extent to which language models can understand and reason about text in a general sense, but fail to capture nuanced capabilities, such as the ability of language models to recognize and obey rare grammar points, particularly in languages other than English. We measure the perplexity of language models when confronted with the "first person psych predicate restriction" grammar point in Japanese. Weblab is the only tested open source model in the 7-10B parameter range which consistently assigns higher perplexity to ungrammatical psych predicate sentences than grammatical ones. We give evidence that Weblab's uniformly bad tokenization is a possible root cause for its good performance, and show that Llama 3's perplexity on grammatical psych predicate sentences can be reduced by orders of magnitude (28x difference) by restricting test sentences to those with uniformly well-behaved tokenizations. We show in further experiments on machine translation tasks that language models will use alternative grammar patterns in order to produce grammatical sentences when tokenization issues prevent the most natural sentence from being output.
- Abstract(参考訳): 言語モデルの性能を評価する典型的な手法は、質問に正確に答える能力を評価する。
これらの評価指標は、言語モデルが一般的な意味でテキストについて理解し、推論できる範囲を決定するために受け入れられるが、特に英語以外の言語において、希少な文法点を認識し、従うことができる言語モデルのようなニュアンスな能力を捉えることができない。
日本語の「第一人精神述語制限」文法点に直面する言語モデルの難易度を測定した。
Weblabは、7-10Bパラメータ範囲で唯一テストされたオープンソースモデルである。
我々は,Weblabの均一なトークン化が優れたパフォーマンスの根本原因となりうることを示すとともに,Llama 3の文法的サイコ述語文の難易度を,一様に良好なトークン化を行う者に対してテスト文を限定することにより,桁違い(28倍の差)で低減できることを示す。
本稿では,機械翻訳タスクのさらなる実験において,言語モデルが文法文を生成するために,最も自然な文が出力されないようにするために,代用文法パターンを使用することを示す。
関連論文リスト
- Negation: A Pink Elephant in the Large Language Models' Room? [2.8078480738404]
否定は文の意味を決定する鍵であり、論理的推論には不可欠である。
一般的な言語モデルを評価することにより,モデルのサイズと言語が否定を正しく処理する能力にどのように影響するかを検討する。
我々のデータセットは、多言語設定における言語モデル推論のさらなる研究と改善を促進することができる。
論文 参考訳(メタデータ) (2025-03-28T13:04:41Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。