論文の概要: The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
- arxiv url: http://arxiv.org/abs/2509.00425v1
- Date: Sat, 30 Aug 2025 09:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.227104
- Title: The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
- Title(参考訳): エンプティルームにおける金メダル:カムランを用いたLLMにおける金属工学的推論の診断
- Authors: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong,
- Abstract要約: 大規模言語モデル (LLM) は多くのベンチマークでゴールド・メディカルのパフォーマンスを達成しているが、そのような成功が真の推論やパターンマッチングを反映しているかどうかは不明だ。
認知科学の観点からは、モデルが明示的なメタリング主義的推論学習を通じて、馴染みの無い言語をマスターできるかどうかが有益なテストである。
私たちは、自然主義的だが証明されていない特徴の組み合わせを示す、新しく構築された言語Camlangでこの問題に対処する。
- 参考スコア(独自算出の注目度): 8.440204591615442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) achieve gold-medal performance across many benchmarks, yet it remains unclear whether such success reflects genuine reasoning or pattern matching. From a cognitive science perspective, an informative test is whether models can master an unfamiliar language through explicit metalinguistic deductive learning, a paradigm where human learners can reliably internalise grammatical systems through metalinguistic reasoning. We address this question with Camlang, a novel constructed language that exhibits naturalistic yet unattested feature combinations. Camlang consists of two explicit resources, a grammar book and a bilingual dictionary, which mirror adult second-language learning via explicit grammar rules and lexical lookup, and enable us to disentangle errors in morpho-syntax, lexical semantics, and sentence-level reasoning. Human experiments show that these resources are sufficient for participants to acquire Camlang and successfully solve Camlang tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang, creating Camlang-CSQA-v0, the first task in a broader suite where solving questions requires applying grammar rules and lexical mappings. Experimental results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in Camlang, far below human performance at 87\%, while other state-of-the-art reasoning LLMs perform even worse. Human verification further reveals that most model successes stem from shallow lexical alignment while GPT-5 shows emerging metalinguistic awareness to a limited extent but not systematic grammatical mastery as humans. Camlang establishes a cognitively grounded evaluation paradigm that exposes fundamental gaps between current models and human metalinguistic competence.
- Abstract(参考訳): 大規模言語モデル (LLM) は多くのベンチマークでゴールド・メディカルのパフォーマンスを達成しているが、そのような成功が真の推論やパターンマッチングを反映しているかどうかは不明だ。
認知科学の観点から見れば、モデルが明示的なメタリング主義的推論学習(英語版)を通じて不慣れな言語をマスターできるかどうかという情報的テストは、人間の学習者がメタリング主義的推論を通じて文法システムを確実に内部化できるパラダイムである。
私たちは、自然主義的だが証明されていない特徴の組み合わせを示す、新しく構築された言語Camlangでこの問題に対処する。
Camlangは、文法書とバイリンガル辞書という2つの明確なリソースから構成されており、これは、明示的な文法規則と語彙的検索を通じて成人第二言語学習を反映し、形態素構文、語彙的意味論、文レベルの推論における誤りを解消することができる。
人間の実験によると、これらのリソースはCamlangを買収し、Camlangのタスクをうまく解くのに十分である。
評価を運用するためには、CommonsenseQAをCamlangに適応させ、文法規則や語彙マッピングを適用する必要があるより広いスイートの最初のタスクであるCamlang-CSQA-v0を作成します。
実験結果から, GPT-5 は英語では 9 % のEM 精度を達成できるが, カムランでは 47 % しか達成できないことがわかった。
人間の検証により、ほとんどのモデルの成功は浅い語彙のアライメントに由来することが判明し、GPT-5は人間としての体系的な文法的熟達に限らず、メタリング主義的認識の出現を示す。
カムランは認知的に根ざした評価パラダイムを確立し、現在のモデルと人間の金属工学的能力の基本的なギャップを明らかにする。
関連論文リスト
- Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。