論文の概要: The Dog the Cat Chased Stumped the Model: Measuring When Language Models Abandon Structure for Shortcuts
- arxiv url: http://arxiv.org/abs/2510.20543v1
- Date: Thu, 23 Oct 2025 13:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.018092
- Title: The Dog the Cat Chased Stumped the Model: Measuring When Language Models Abandon Structure for Shortcuts
- Title(参考訳): 猫が抱きしめた犬:ショートカットのための言語モデルを捨てた時の測定
- Authors: Sangmitra Madhusudan, Kaige Chen, Ali Emami,
- Abstract要約: CenterBenchは、センタ埋め込み文に関する9,720質問のデータセットである。
各文は、構文的に同一であるが、意味的に不明瞭な文である。
テストでは、複雑性とともに体系的に拡張された可読文と可読文の間にパフォーマンスのギャップが明らかになる。
- 参考スコア(独自算出の注目度): 12.241296649002756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When language models correctly parse "The cat that the dog chased meowed," are they analyzing syntax or simply familiar with dogs chasing cats? Despite extensive benchmarking, we lack methods to distinguish structural understanding from semantic pattern matching. We introduce CenterBench, a dataset of 9,720 comprehension questions on center-embedded sentences (like "The cat [that the dog chased] meowed") where relative clauses nest recursively, creating processing demands from simple to deeply nested structures. Each sentence has a syntactically identical but semantically implausible counterpart (e.g., mailmen prescribe medicine, doctors deliver mail) and six comprehension questions testing surface understanding, syntactic dependencies, and causal reasoning. Testing six models reveals that performance gaps between plausible and implausible sentences widen systematically with complexity, with models showing median gaps up to 26.8 percentage points, quantifying when they abandon structural analysis for semantic associations. Notably, semantic plausibility harms performance on questions about resulting actions, where following causal relationships matters more than semantic coherence. Reasoning models improve accuracy but their traces show semantic shortcuts, overthinking, and answer refusal. Unlike models whose plausibility advantage systematically widens with complexity, humans shows variable semantic effects. CenterBench provides the first framework to identify when models shift from structural analysis to pattern matching.
- Abstract(参考訳): 言語モデルが「犬が追いかけた猫」を正しく解釈するとき、彼らは構文を分析しているのか、単に猫を追いかける犬に親しんでいるのか?
広範なベンチマークにもかかわらず、構造的理解と意味的パターンマッチングを区別する手法が欠如している。
私たちはCenterBenchを紹介します。CenterBenchは、Central Embedded文に関する9,720の理解質問のデータセットで、相対的節が再帰的にネストされ、単純な構造から深くネストされた構造への処理要求が作成されます。
各文には、構文的に同一であるが、意味的には理解できないもの(例えば、郵便配達員は薬を処方し、医師は郵便を配達する)と、表面理解、構文依存、因果推論をテストする6つの理解的質問がある。
6つのモデルをテストすると、可算文と可算文の間のパフォーマンスギャップは複雑性とともに体系的に拡大し、中央値の差は26.8ポイントまで拡大し、意味的関連のために構造解析を捨てたときに定量化される。
特に意味的妥当性は、意味的コヒーレンス以上の因果関係が重要である結果の行動に関する質問のパフォーマンスに害を与える。
推論モデルは精度を向上させるが、そのトレースはセマンティックショートカット、過度な考え、答えの拒絶を示す。
複雑性が体系的に拡大するモデルとは異なり、人間は様々な意味的効果を示す。
CenterBenchは、モデルが構造解析からパターンマッチングへいつ移行するかを特定するための最初のフレームワークを提供する。
関連論文リスト
- Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks [10.181408678232055]
モデルのサイズやアーキテクチャに関わらず,特定の例が常に低いスコアを得られるという直感に基づいて,理解タスクを読むための評価手法を提案する。
この複雑さを特徴付けるためのセマンティックフレームアノテーションを活用し、モデルの難易度を考慮に入れうる7つの複雑さ要因について検討する。
論文 参考訳(メタデータ) (2025-01-29T11:05:20Z) - QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios [15.193544498311603]
本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオのデータセットであるQUITEを提案する。
我々は幅広い実験を行い、論理ベースのモデルが全ての推論型において、アウト・オブ・ボックスの大規模言語モデルより優れていることを発見した。
以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。
論文 参考訳(メタデータ) (2024-10-14T12:44:59Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - Language model acceptability judgements are not always robust to context [30.868765627701457]
目標構文評価における言語モデルの性能の安定性について検討する。
モデル判断は、ランダムにサンプル化された言語コンテキストに置かれる場合、一般的には堅牢である。
これらのモデル性能の変化は、コンテキストとテスト入力にマッチする単純な特徴によって説明できないことを示す。
論文 参考訳(メタデータ) (2022-12-18T00:11:06Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Multi-Step Inference for Reasoning Over Paragraphs [95.91527524872832]
テキスト上の複雑な推論には、自由形式の述語と論理的な連結体を理解し、連鎖する必要がある。
本稿では,ニューラルネットワークを連想させる構成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-06T21:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。