論文の概要: Probing Structural Mathematical Reasoning in Language Models with Algebraic Trapdoors
- arxiv url: http://arxiv.org/abs/2605.04352v1
- Date: Tue, 05 May 2026 23:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.574916
- Title: Probing Structural Mathematical Reasoning in Language Models with Algebraic Trapdoors
- Title(参考訳): 代数的トランプドアを用いた言語モデルにおける構造的数学的推論の提案
- Authors: Igor Rivin,
- Abstract要約: 言語モデルにおける構造的数学的推論を評価するためのベンチマークスイートを提案する。
各インスタンスは有限生成された部分群を整数行列のリストとして提示する。
本稿では,2つの最先端モデルから得られた5つの代表的な推論指標について実験結果について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a benchmark suite for evaluating structural mathematical reasoning in language models, built on subgroup-construction problems in SL(3, Z) with cryptographic-style verifier-prover asymmetry. Each instance presents a finitely generated subgroup as a list of integer matrices and asks for an arithmetic invariant -- index, surjection-at-prime, or membership -- that the construction-time information (N, K) pins down in O(1) closed form, but that the solver, lacking that information, must derive by either Aschbacher-classification analysis or by a membership query in SL(3, Z) of unknown decidability. The benchmark therefore distinguishes models with internalized algebraic priors (Aschbacher classes, McLaughlin's theorem, Property (T), the congruence subgroup property) from models that rely on general-purpose computation. We report empirical results across five representative reasoning traces from two state-of-the-art models. The headline result: on the index variant, one model spent 152 minutes of reasoning, explicitly identified the kernel-side membership question as the bottleneck, attempted constructive verification, and abstained with "DON'T KNOW" rather than commit to its computed cokernel candidate -- demonstrating calibrated meta-cognition on the open-decidability boundary that the benchmark was designed to probe. We argue that the benchmark exposes a four-way classification of model behavior (commit-correct, commit-wrong, abstain-correct, abstain-wrong) that standard answer-key scoring conflates.
- Abstract(参考訳): 本稿では,SL(3, Z) のサブグループ構成問題と暗号型検証器-プロデューサ非対称性に基づく言語モデルにおける構造的数学的推論評価のためのベンチマークスイートを提案する。
各インスタンスは、有限生成された部分群を整数行列のリストとして示し、算術不変量 -- index, surjection-at-prime, or membership -- を求めると、構成時情報(N, K)が O(1) 閉形式にピンダウンするが、その情報に欠けるソルバは、Aschbacher-classification analysis または未知の決定性を持つSL(3, Z) のメンバシップクエリによって導出されなければならない。
したがって、ベンチマークは、内部化された代数的事前(アシュバッハ類、マクラーリンの定理、プロパティ(T)、合同部分群の性質)を持つモデルと、汎用計算に依存するモデルとを区別する。
本稿では,2つの最先端モデルから得られた5つの代表的な推論指標について実験結果について報告する。
インデックスのバリエーションでは、あるモデルが152分間の推論に費やし、カーネル側のメンバシップの問題がボトルネックとして明確に特定され、構成的検証が試みられ、計算されたカーネル候補にコミットするのではなく、"DON'T KNOW"で棄権された。
このベンチマークは、標準応答キースコアリングが混在するモデル行動の4方向の分類(コミット正当性、コミット正当性、アプテン正当性、アプテン正当性)を公開していると論じる。
関連論文リスト
- Decidable By Construction: Design-Time Verification for Trustworthy AI [0.0]
機械学習における一般的な仮定は、モデル正しさは事実の後に強制されなければならないというものである。
我々は,AIモデルが数値的に安定しているか,計算的に正しいか,あるいは物理領域と整合しているかを決定する特性が,必ずしもポストホック強制を要求するとは限らないことを観察する。
論文 参考訳(メタデータ) (2026-03-26T13:09:36Z) - Optimal Classification of Three-Qubit Entanglement with Cascaded Support Vector Machine [0.0]
本稿では,SVM(Support Vector Machine)分類器のカスケードアーキテクチャを用いた3ビット交絡分類のための体系的フレームワークを提案する。
我々は,3つの異なる目撃モデル(mathcalM_B$, $mathcalM_W$, $mathcalM_GHZ$)を構築した。
提案したカスケードモデルでは、混合状態の包括的データセット上で、全体の分類精度を95%の精度で達成している。
論文 参考訳(メタデータ) (2026-02-17T12:49:41Z) - A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-07-25T13:14:03Z) - Learning Identifiable Structures Helps Avoid Bias in DNN-based Supervised Causal Learning [56.22841701016295]
Supervised Causal Learning (SCL)はこの分野で新興パラダイムである。
既存のディープニューラルネットワーク(DNN)ベースの手法では、"Node-Edgeアプローチ"が一般的である。
論文 参考訳(メタデータ) (2025-02-15T19:10:35Z) - Identification and Estimation of Simultaneous Equation Models Using Higher-Order Cumulant Restrictions [5.882065571122133]
線形同時方程式モデルにおける構造パラメータの同定は長年にわたる課題である。
構造パラメータの同定には共分散証明もホワイトニングも必要ないことを示す。
私たちのフレームワークは透過的なオーバーアイデンティティテストを提供します。
論文 参考訳(メタデータ) (2025-01-12T11:27:39Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - Prolog-based agnostic explanation module for structured pattern
classification [2.0824228840987447]
本稿では,Prologをベースとした推論モジュールを提案する。
また、予測されたものではなく、接地トラスラベルを使ってe-ifクエリを解決できる。
全体として、本手法は、構造化パターン分類問題に適用可能な4つの明確に定義された段階から構成される。
論文 参考訳(メタデータ) (2021-12-23T15:28:40Z) - GroupifyVAE: from Group-based Definition to VAE-based Unsupervised
Representation Disentanglement [91.9003001845855]
他の誘導バイアスを導入しないと、VAEベースの非監視的非絡み合いは実現できない。
グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続に対処する。
提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。
論文 参考訳(メタデータ) (2021-02-20T09:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。