論文の概要: Primender Sequence: A Novel Mathematical Construct for Testing Symbolic Inference and AI Reasoning
- arxiv url: http://arxiv.org/abs/2506.10585v1
- Date: Thu, 12 Jun 2025 11:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.701236
- Title: Primender Sequence: A Novel Mathematical Construct for Testing Symbolic Inference and AI Reasoning
- Title(参考訳): Primender Sequence: シンボリック推論とAI推論をテストするための新しい数学的構成
- Authors: Mohd Anwar Jamal Faiz,
- Abstract要約: 素数列(英: Primender sequence)は、古典的な素数列とモジュラーディジットに基づく条件を組み合わせた新しい整数列である。
本稿では,大規模言語モデルの記号的推論能力を評価するためのベンチマークとして,このシーケンスを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Primender sequence, a novel integer sequence defined by a hybrid rule that combines classical primality with modular digit-based conditions. Specifically, a number n is included in the sequence if it is prime or ends with a prime number of unit digit or any length. In other words, numbers which are primes or have at least one prime suffix. The resulting sequence exhibits a deterministic yet non-trivial structure, blending number-theoretic properties with symbolic patterning. We propose the Primender sequence as a benchmark for evaluating the symbolic reasoning capabilities of Large Language Models (LLMs). The study is motivated by the need for interpretable, rule-based testbeds that can assess an LLM's ability to infer hidden rules, validate mathematical hypotheses, and generalize symbolic logic at scale. A key hypothesis explored is: Whenever a number in the Primender sequence is exactly one more than the largest prime less than or equal to it, the difference between it and the previous number in the sequence is also 1. We design a structured prompt and evaluation framework to test this hypothesis across multiple state-of-the-art LLMs, including ChatGPT, Copilot, DeepSeek, Gemini, Grok, and LLaMA. The models are tasked with identifying the underlying rule, validating the hypothesis, and generating the next 100,000 terms of the sequence. Comparative metrics such as rule inference accuracy, hypothesis evaluation, sequence validity, and symbolic explanation quality are used to assess model performance. This work contributes a novel mathematical construct and a reproducible methodology for benchmarking LLMs in symbolic reasoning, hypothesis testing, and scalable pattern generalization - bridging the domains of number theory, artificial intelligence, and software engineering.
- Abstract(参考訳): 本稿では,古典的プリミリティとモジュラーディジットに基づく条件を組み合わせたハイブリッド規則で定義された新しい整数列であるプライマンダー列を紹介する。
具体的には、素数 n が素数である場合や、単位桁の素数や長さで終わる場合、その列に含まれる。
言い換えれば、素数か少なくとも1つの素接数を持つ数である。
結果として得られる配列は決定論的だが非自明な構造を示し、数論的性質と記号的パターンを混合する。
本稿では,Large Language Models (LLMs) のシンボリック推論能力を評価するためのベンチマークとして,Primender sequenceを提案する。
この研究は、LLMが隠れたルールを推測し、数学的仮説を検証し、大規模に記号論理を一般化する能力を評価する、解釈可能なルールベースのテストベッドの必要性によって動機付けられている。
プリンダー列の数がそれより小さい最大の素数より正確に1倍大きいとき、その列の前の数とそれとの違いも1である。
我々は、ChatGPT、Copilot、DeepSeek、Gemini、Grok、LLaMAを含む複数の最先端LLMでこの仮説をテストするための構造化プロンプトおよび評価フレームワークを設計する。
モデルは、基礎となる規則を特定し、仮説を検証し、次の10万の項を生成する。
モデル性能を評価するために,ルール推定精度,仮説評価,シーケンス妥当性,記号的説明品質などの比較指標を用いる。
この研究は、記号的推論、仮説テスト、拡張パターンの一般化において LLM のベンチマークを行うための、新しい数学的構成と再現可能な方法論に寄与する。
関連論文リスト
- Primality Testing via Circulant Matrix Eigenvalue Structure: A Novel Approach Using Cyclotomic Field Theory [2.0547410497538445]
本稿では,一意の根から構築した循環行列の固有値構造に基づく新しい予備性試験を提案する。
整数 $n > 2$ が素であることの証明は、$C_n = W_n + W_n2$ の行列の最小限の検証がちょうど 2 つの既約因子を持つ場合に限る。
論文 参考訳(メタデータ) (2025-04-28T17:46:57Z) - Code-Driven Inductive Synthesis: Enhancing Reasoning Abilities of Large Language Models with Sequences [38.76458756232632]
大規模言語モデルにおける帰納的推論について検討する。
帰納的推論データのソースとして数列を用いる。
シーケンス合成データパイプラインを構築し、トレーニングデータセットCodeSeqを作成します。
論文 参考訳(メタデータ) (2025-03-17T12:33:26Z) - Prime Convolutional Model: Breaking the Ground for Theoretical Explainability [45.07003937279752]
我々は、説明可能なAIに新たな理論的アプローチを提案する。
制御環境におけるケーススタディに本手法を適用した。
p-Convの異なる挙動は、$m$と$B$で数学的にモデル化できることを示す。
論文 参考訳(メタデータ) (2025-03-04T16:42:46Z) - Benchmarking Large Language Models with Integer Sequence Generation Tasks [1.3108652488669736]
本稿では,大規模言語モデル(LLM)がオンラインシーケンス百科事典(OEIS)から整数列を計算するコードを書かなければならない,新たなベンチマークを提案する。
ベンチマークの結果、OpenAI、Anthropic、Meta、Googleの他のフロンティアモデルよりも、簡単かつハードな整数シーケンス間の精度と不正なレートで、o1シリーズのモデルの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-11-07T02:05:43Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。
前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文 参考訳(メタデータ) (2024-02-14T04:50:18Z) - Decidable Fragments of LTLf Modulo Theories (Extended Version) [66.25779635347122]
一般に、fMTは、任意の決定可能な一階述語理論(例えば、線形算術)に対して、テーブルーベースの半決定手順で半決定可能であることが示されている。
有限メモリと呼ぶ抽象的意味条件を満たす任意のfMT式に対して、新しい規則で拡張されたテーブルーもまた終了することが保証されていることを示す。
論文 参考訳(メタデータ) (2023-07-31T17:02:23Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文 参考訳(メタデータ) (2022-10-03T21:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。