論文の概要: Semantic Deception: When Reasoning Models Can't Compute an Addition
- arxiv url: http://arxiv.org/abs/2512.20812v1
- Date: Tue, 23 Dec 2025 22:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.617186
- Title: Semantic Deception: When Reasoning Models Can't Compute an Addition
- Title(参考訳): 意味的誤認: モデルが加算を計算できないとき
- Authors: Nathaniël de Leeuw, Marceau Nahon, Mathis Reymond, Raja Chatila, Mehdi Khamassi,
- Abstract要約: 本稿では,新しい記号表現を用いた大規模言語モデル(LLM)の推論機能について検討する。
シンボルが形によって誤解を招く意味的関連性を持つ状況について,意味的誤認を紹介する。
非常に単純なタスクにおいて、セマンティック・キューは推論モデルの性能を著しく劣化させる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.6361348748202731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in situations where human values are at stake, such as decision-making tasks that involve reasoning when performed by humans. We investigate the so-called reasoning capabilities of LLMs over novel symbolic representations by introducing an experimental framework that tests their ability to process and manipulate unfamiliar symbols. We introduce semantic deceptions: situations in which symbols carry misleading semantic associations due to their form, such as being embedded in specific contexts, designed to probe whether LLMs can maintain symbolic abstraction or whether they default to exploiting learned semantic associations. We redefine standard digits and mathematical operators using novel symbols, and task LLMs with solving simple calculations expressed in this altered notation. The objective is: (1) to assess LLMs' capacity for abstraction and manipulation of arbitrary symbol systems; (2) to evaluate their ability to resist misleading semantic cues that conflict with the task's symbolic logic. Through experiments with four LLMs we show that semantic cues can significantly deteriorate reasoning models' performance on very simple tasks. They reveal limitations in current LLMs' ability for symbolic manipulations and highlight a tendency to over-rely on surface-level semantics, suggesting that chain-of-thoughts may amplify reliance on statistical correlations. Even in situations where LLMs seem to correctly follow instructions, semantic cues still impact basic capabilities. These limitations raise ethical and societal concerns, undermining the widespread and pernicious tendency to attribute reasoning abilities to LLMs and suggesting how LLMs might fail, in particular in decision-making contexts where robust symbolic reasoning is essential and should not be compromised by residual semantic associations inherited from the model's training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間による推論を含む意思決定タスクなど、人間の価値が問題となる状況において、ますます使われるようになっている。
未知のシンボルを処理・操作する実験的なフレームワークを導入することで,新しいシンボル表現に対するLLMのいわゆる推論能力について検討する。
シンボルが特定の文脈に埋め込まれ、LLMが象徴的抽象を維持できるかどうか、あるいは学習された意味的関連を悪用するデフォルトであるかどうかを調査するために設計された、その形態による誤解を招く意味的関連性を持つ状況について紹介する。
我々は、新しい記号を用いて標準桁と数学的演算子を再定義し、この変化した表記法で表される単純な計算を解くことでタスクLSMを解く。
目的は,(1)任意のシンボルシステムの抽象化と操作のためのLLMの能力を評価すること,(2)タスクの記号論理と矛盾する誤解を招く意味的手がかりに抵抗する能力を評価することである。
4つのLCMを用いた実験により、非常に単純なタスクにおける推論モデルの性能が著しく低下することを示した。
それらは、現在のLLMの象徴的な操作能力の限界を明らかにし、表面レベルの意味論に過度に精通する傾向を強調し、チェーン・オブ・思想が統計的相関に頼っていることを示唆している。
LLMが正しく命令に従うような状況であっても、セマンティックキューは基本的な機能に影響を与える。
これらの制限は倫理的・社会的な関心を喚起し、LLMの推論能力に起因する広範かつ悪質な傾向を損なうとともに、特にロバストな象徴的推論が不可欠であり、モデルの訓練から継承された後続的なセマンティックアソシエーションによって損なわれるべきではない決定的文脈において、LLMがいかに失敗するかを示唆している。
関連論文リスト
- CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Stochastic LLMs do not Understand Language: Towards Symbolic,
Explainable and Ontologically Based LLMs [0.0]
データ駆動型大規模言語モデル(LLM)の相対的な成功は象徴的対準記号的議論の反映ではないと我々は主張する。
本稿では,記号的,説明可能な,存在論的に基礎を成す言語モデルに,効果的なボトムアップ戦略を適用することを提案する。
論文 参考訳(メタデータ) (2023-09-12T02:14:05Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。