論文の概要: Large Language Model probabilities cannot distinguish between possible and impossible language
- arxiv url: http://arxiv.org/abs/2509.15114v1
- Date: Thu, 18 Sep 2025 16:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.325843
- Title: Large Language Model probabilities cannot distinguish between possible and impossible language
- Title(参考訳): 大きな言語モデルでは、可能な言語と不可能な言語を区別できない
- Authors: Evelina Leivada, Raquel Montero, Paolo Morosi, Natalia Moskvina, Tamara Serrano, Marcel Aguilar, Fritz Guenther,
- Abstract要約: モデル-内部表現を使用して、大言語モデルが'文法-非文法'の区別を表現する方法を直接タップします。
文字列確率が文法の限界のプロキシとして機能すると、非文法的条件は言語的違反を含む条件の中で際立つと予測する。
この結果から,非文法的プロンプトに対する特異な副次的シグネチャは明らかにされていない。
- 参考スコア(独自算出の注目度): 0.11726720776908521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A controversial test for Large Language Models concerns the ability to discern possible from impossible language. While some evidence attests to the models' sensitivity to what crosses the limits of grammatically impossible language, this evidence has been contested on the grounds of the soundness of the testing material. We use model-internal representations to tap directly into the way Large Language Models represent the 'grammatical-ungrammatical' distinction. In a novel benchmark, we elicit probabilities from 4 models and compute minimal-pair surprisal differences, juxtaposing probabilities assigned to grammatical sentences to probabilities assigned to (i) lower frequency grammatical sentences, (ii) ungrammatical sentences, (iii) semantically odd sentences, and (iv) pragmatically odd sentences. The prediction is that if string-probabilities can function as proxies for the limits of grammar, the ungrammatical condition will stand out among the conditions that involve linguistic violations, showing a spike in the surprisal rates. Our results do not reveal a unique surprisal signature for ungrammatical prompts, as the semantically and pragmatically odd conditions consistently show higher surprisal. We thus demonstrate that probabilities do not constitute reliable proxies for model-internal representations of syntactic knowledge. Consequently, claims about models being able to distinguish possible from impossible language need verification through a different methodology.
- Abstract(参考訳): 論争を呼んでいるLarge Language Modelsのテストは、不可能な言語と区別する能力に関するものだ。
いくつかの証拠は、文法的に不可能な言語の限界を越えるものに対するモデルの感度を証明しているが、この証拠は試験材料の音質の面から論じられている。
モデル-内部表現を使用して、大言語モデルが'文法-非文法'の区別を表現する方法を直接タップします。
新たなベンチマークでは、4つのモデルから確率を抽出し、最小対次差を計算し、文法文に割り当てられた確率を確率に割り当てる。
(i)低頻度文法文
(ii)非文法文
(三)意味不明な文、及び
(四)現実的に奇異な文。
この予測は、文字列確率が文法の限界のプロキシとして機能するならば、非文法的条件は言語的違反を含む条件の中で際立っており、素数率の急上昇を示す。
この結果から,非文法的プロンプトに対する特異な副次的シグネチャは明らかにされていない。
そこで本研究では,構文知識のモデル内表現において,確率が信頼性のあるプロキシを構成することを実証する。
その結果、不可能な言語と区別できるモデルに関する主張は、異なる方法論による検証が必要である。
関連論文リスト
- Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar [27.3347020320559]
日本語の「第一人精神述語制限」文法点に直面する言語モデルの難易度を測定した。
さらに, 代用文法モデルを用いて, 代用文法パターンを用いて代用文法文を生成する場合, トークン化問題により最も自然な文が出力されることを防止できることを示す。
論文 参考訳(メタデータ) (2025-05-26T07:08:47Z) - CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Recurrent Neural Network Language Models Always Learn English-Like
Relative Clause Attachment [17.995905582226463]
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
英語モデルは人間に似た構文的嗜好を習得しているように見えるが、スペイン語で訓練されたモデルは、同等の人間的な嗜好を取得できない。
論文 参考訳(メタデータ) (2020-05-01T01:21:47Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。