論文の概要: Code over Words: Overcoming Semantic Inertia via Code-Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2601.18352v1
- Date: Mon, 26 Jan 2026 10:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.786736
- Title: Code over Words: Overcoming Semantic Inertia via Code-Grounded Reasoning
- Title(参考訳): Code over Words: Code-Grounded Reasoningによる意味論的慣性克服
- Authors: Manjie Xu, Isabella Yin, Xinyi Tu, Chi Zhang, Yixin Zhu,
- Abstract要約: LLMはセマンティック・慣性 (Semantic Inertia) と戦っている。
記述的テキストではなく,動的表現を実行可能なコードとして表現することは,この傾向を逆転させ,効果的な事前抑制を可能にすることを示す。
- 参考スコア(独自算出の注目度): 12.151063066287206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs struggle with Semantic Inertia: the inability to inhibit pre-trained priors (e.g., "Lava is Dangerous") when dynamic, in-context rules contradict them. We probe this phenomenon using Baba Is You, where physical laws are mutable text rules, enabling precise evaluation of models' ability to override learned priors when rules change. We quantatively observe that larger models can exhibit inverse scaling: they perform worse than smaller models when natural language reasoning requires suppressing pre-trained associations (e.g., accepting "Lava is Safe"). Our analysis attributes this to natural language encoding, which entangles descriptive semantics and logical rules, leading to persistent hallucinations of familiar physics despite explicit contradictory rules. Here we show that representing dynamics as executable code, rather than descriptive text, reverses this trend and enables effective prior inhibition. We introduce Code-Grounded Vistas (LCV), which fine-tunes models on counterfactual pairs and identifies states with contradictory rules, thereby forcing attention to logical constraints rather than visual semantics. This training-time approach outperforms expensive inference-time search methods in both efficiency and accuracy. Our results demonstrate that representation fundamentally determines whether scaling improves or impairs contextual reasoning. This challenges the assumption that larger models are universally better, with implications for domains that require dynamic overriding of learned priors.
- Abstract(参考訳): LLMはセマンティック・慣性 (Semantic Inertia) と競合する: 動的でコンテキスト内ルールが矛盾する場合、事前訓練された事前(例えば、"Lava is Dangerous")を抑えることができない。
ババ・イズ・ユー(Baba Is You)を用いてこの現象を探索し、物理法則が変更可能なテキスト規則であり、規則が変更されたときに学習した先行をオーバーライドするモデルの能力の正確な評価を可能にする。
自然言語推論が事前学習された関連(例えば、"Lava is Safe"を受け入れる)を抑える必要がある場合、より小さなモデルよりも悪い結果が得られます。
我々の分析は、記述的意味論と論理的規則を絡み合わせる自然言語の符号化によるものであり、明確な矛盾した規則にもかかわらず、よく知られた物理学の幻覚に繋がる。
ここでは、記述テキストではなく、動的を実行可能なコードとして表現することで、この傾向を逆転させ、効果的な事前抑制を可能にすることを示す。
コード・グラウンドド・ヴィジュアライズ(LCV)を導入し、反ファクトなペアを微調整し、矛盾するルールで状態を識別し、視覚的意味論よりも論理的制約に注意を向ける。
この訓練時間アプローチは、効率と精度の両方で高価な推論時間探索法より優れている。
以上の結果から,スケーリングが改善するか,文脈的推論を損なうかを,表現が根本的に決定することが示された。
このことは、学習前の動的なオーバーライドを必要とする領域において、より大きなモデルが普遍的に優れているという仮定に挑戦する。
関連論文リスト
- Forest Before Trees: Latent Superposition for Efficient Visual Reasoning [61.29300723302152]
レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムである
レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
論文 参考訳(メタデータ) (2026-01-11T08:30:49Z) - Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs [2.583082967853897]
その結果,ほとんどのフロンティア推論モデルで動機付け推論が検出できることがわかった。
モデルが高度化するにつれて、モニターが検出することがますます困難になる可能性がある。
論文 参考訳(メタデータ) (2025-10-20T00:24:08Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:02:29Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Few-Shot Semantic Parsing with Language Models Trained On Code [52.23355024995237]
Codexは同等のGPT-3モデルよりもセマンティックパーシングが優れていることがわかった。
GPT-3とは異なり、Codexは意味表現を直接ターゲットとする場合、おそらく意味解析で使われる意味表現がコードと似た構造になっているように、同じように機能する。
論文 参考訳(メタデータ) (2021-12-16T08:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。