論文の概要: Semantic Deception: When Reasoning Models Can't Compute an Addition
- arxiv url: http://arxiv.org/abs/2512.20812v1
- Date: Tue, 23 Dec 2025 22:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.617186
- Title: Semantic Deception: When Reasoning Models Can't Compute an Addition
- Title(参考訳): 意味的誤認: モデルが加算を計算できないとき
- Authors: Nathaniël de Leeuw, Marceau Nahon, Mathis Reymond, Raja Chatila, Mehdi Khamassi,
- Abstract要約: 本稿では,新しい記号表現を用いた大規模言語モデル(LLM)の推論機能について検討する。
シンボルが形によって誤解を招く意味的関連性を持つ状況について,意味的誤認を紹介する。
非常に単純なタスクにおいて、セマンティック・キューは推論モデルの性能を著しく劣化させる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.6361348748202731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in situations where human values are at stake, such as decision-making tasks that involve reasoning when performed by humans. We investigate the so-called reasoning capabilities of LLMs over novel symbolic representations by introducing an experimental framework that tests their ability to process and manipulate unfamiliar symbols. We introduce semantic deceptions: situations in which symbols carry misleading semantic associations due to their form, such as being embedded in specific contexts, designed to probe whether LLMs can maintain symbolic abstraction or whether they default to exploiting learned semantic associations. We redefine standard digits and mathematical operators using novel symbols, and task LLMs with solving simple calculations expressed in this altered notation. The objective is: (1) to assess LLMs' capacity for abstraction and manipulation of arbitrary symbol systems; (2) to evaluate their ability to resist misleading semantic cues that conflict with the task's symbolic logic. Through experiments with four LLMs we show that semantic cues can significantly deteriorate reasoning models' performance on very simple tasks. They reveal limitations in current LLMs' ability for symbolic manipulations and highlight a tendency to over-rely on surface-level semantics, suggesting that chain-of-thoughts may amplify reliance on statistical correlations. Even in situations where LLMs seem to correctly follow instructions, semantic cues still impact basic capabilities. These limitations raise ethical and societal concerns, undermining the widespread and pernicious tendency to attribute reasoning abilities to LLMs and suggesting how LLMs might fail, in particular in decision-making contexts where robust symbolic reasoning is essential and should not be compromised by residual semantic associations inherited from the model's training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間による推論を含む意思決定タスクなど、人間の価値が問題となる状況において、ますます使われるようになっている。
未知のシンボルを処理・操作する実験的なフレームワークを導入することで,新しいシンボル表現に対するLLMのいわゆる推論能力について検討する。
シンボルが特定の文脈に埋め込まれ、LLMが象徴的抽象を維持できるかどうか、あるいは学習された意味的関連を悪用するデフォルトであるかどうかを調査するために設計された、その形態による誤解を招く意味的関連性を持つ状況について紹介する。
我々は、新しい記号を用いて標準桁と数学的演算子を再定義し、この変化した表記法で表される単純な計算を解くことでタスクLSMを解く。
目的は,(1)任意のシンボルシステムの抽象化と操作のためのLLMの能力を評価すること,(2)タスクの記号論理と矛盾する誤解を招く意味的手がかりに抵抗する能力を評価することである。
4つのLCMを用いた実験により、非常に単純なタスクにおける推論モデルの性能が著しく低下することを示した。
それらは、現在のLLMの象徴的な操作能力の限界を明らかにし、表面レベルの意味論に過度に精通する傾向を強調し、チェーン・オブ・思想が統計的相関に頼っていることを示唆している。
LLMが正しく命令に従うような状況であっても、セマンティックキューは基本的な機能に影響を与える。
これらの制限は倫理的・社会的な関心を喚起し、LLMの推論能力に起因する広範かつ悪質な傾向を損なうとともに、特にロバストな象徴的推論が不可欠であり、モデルの訓練から継承された後続的なセマンティックアソシエーションによって損なわれるべきではない決定的文脈において、LLMがいかに失敗するかを示唆している。
関連論文リスト
- Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.0648414540406703]
RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。
GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Stochastic LLMs do not Understand Language: Towards Symbolic,
Explainable and Ontologically Based LLMs [0.0]
データ駆動型大規模言語モデル(LLM)の相対的な成功は象徴的対準記号的議論の反映ではないと我々は主張する。
本稿では,記号的,説明可能な,存在論的に基礎を成す言語モデルに,効果的なボトムアップ戦略を適用することを提案する。
論文 参考訳(メタデータ) (2023-09-12T02:14:05Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。