論文の概要: Reasoning: From Reflection to Solution
- arxiv url: http://arxiv.org/abs/2511.11712v1
- Date: Wed, 12 Nov 2025 17:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.084199
- Title: Reasoning: From Reflection to Solution
- Title(参考訳): 推論:リフレクションからソリューションへ
- Authors: Zixi Li,
- Abstract要約: GSM8KやHumanEvalのようなベンチマークで超人的なパフォーマンスを達成する大規模言語モデルの時代において、私たちは問う必要がある。
textbfreasoning is iterative operator application in state space, converging to fixed point。
研究は、まず、OpenXOR(英語版)から始まり、理論(OpenOperator)を通じて進行し、最先端のLLMが0%の精度で76%の精度で作業解(OpenLM)を達成します。
- 参考スコア(独自算出の注目度): 0.16244541005112745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is reasoning? This question has driven centuries of philosophical inquiry, from Aristotle's syllogisms to modern computational complexity theory. In the age of large language models achieving superhuman performance on benchmarks like GSM8K (95\% accuracy) and HumanEval (90\% pass@1), we must ask: have these systems learned to \emph{reason}, or have they learned to \emph{pattern-match over reasoning traces}? This paper argues for a specific answer: \textbf{reasoning is iterative operator application in state spaces, converging to fixed points}. This definition is not merely philosophical -- it has concrete architectural implications that explain both the failures of current systems and the path to genuine reasoning capabilities. Our investigation begins with a puzzle (OpenXOR), progresses through theory (OpenOperator), and culminates in a working solution (OpenLM) that achieves 76\% accuracy where state-of-the-art LLMs achieve 0\%. This is not about criticizing existing systems, but about \emph{understanding what reasoning requires} and \emph{building architectures that provide it}.
- Abstract(参考訳): 理由とは何か?
この問題は、アリストテレスのシロジズムから現代の計算複雑性理論まで、何世紀にもわたる哲学的な探究を導いた。
GSM8K (95 %の精度)やHumanEval (90 %のpass@1)のようなベンチマークで超人的なパフォーマンスを達成する大規模言語モデルの時代には、これらのシステムは \emph{reason} に学習されているのか、それとも、トレースの推論について \emph{pattern-match に学習されているのか?
この論文は、特定の答えを主張する: \textbf{reasoning は状態空間におけるイテレーティブ作用素の応用であり、固定点に収束する。
この定義は単なる哲学的ではなく、現在のシステムの失敗と真の推論能力への道筋を説明する具体的なアーキテクチャ上の意味を持っている。
我々の研究は、まずパズル(OpenXOR)から始まり、理論(OpenOperator)を通じて進行し、最先端のLLMが0\%に達すると、76\%の精度で作業解(OpenLM)を達成します。
これは、既存のシステムを批判することではなく、それを提供する、推論に何が必要か、そして、それを提供するアーキテクチャについてである。
関連論文リスト
- From Fuzzy to Exact: The Halo Architecture for Infinite-Depth Reasoning via Rational Arithmetic [0.10152838128195464]
一般知性の基盤である高次因果推論は、論理的に一貫した算術をサポートする基質を要求する。
我々は、計算基礎を近似実数から正確な有理数へ遷移させるtextbfHalo Architectureを提案する。
我々の研究は、正確な算術を推論可能なAGIを前進させるには不可能であると仮定し、検証可能で拡張可能なAIシステムへのハードウェアとソフトウェアの共同設計のパスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:24:34Z) - Causal Strengths and Leaky Beliefs: Interpreting LLM Reasoning via Noisy-OR Causal Bayes Nets [0.0]
LLMとヒトの同一のタスクにおける因果推論を評価することにより、それぞれの強みと弱さをより包括的に理解することができる。
研究は、 (Q1) LLMは人間と協調しているか? (Q2) LLMと人間は、タスクレベルで一貫して推論するのか? (Q3) 明確な推論シグネチャを持っているか?
論文 参考訳(メタデータ) (2025-12-10T21:58:16Z) - Reason-KE++: Aligning the Process, Not Just the Outcome, for Faithful LLM Knowledge Editing [63.96040994220329]
SFTに基づく手法、例えばReason-KEは「偽りのギャップ」に悩まされている。
このギャップにより、LLMの強力なパラメトリック先行は、新しい文脈事実をオーバーライドすることができる。
本稿では,プロセスレベルの忠実性を具現化するSFT+RLフレームワークReason-KE++を提案する。
論文 参考訳(メタデータ) (2025-11-16T15:49:01Z) - Measuring Reasoning in LLMs: a New Dialectical Angle [0.0]
本稿では,言語モデルの推論を弁証学で評価する構造化フレームワークSIEVを提案する。
従来の評価とは異なり、SIEVはモデルが到達した結論だけでなく、どのように到達するかを評価する。
例えば、最近のモデルであるGPT-5-chatは、GSM上のSIEVで評価すると40ポイント以上(100点中)を失う。
論文 参考訳(メタデータ) (2025-10-20T22:08:59Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - The quasi-semantic competence of LLMs: a case study on the part-whole relation [53.37191762146552]
我々は,アンフィパル・ホール関係,すなわちアンフェロニミーの知識について検討する。
Emphquasi-semantic'のモデルは、単にemphquasi-semantic'の能力を持つだけで、深い推論特性の取得には至っていないことを示す。
論文 参考訳(メタデータ) (2025-04-03T08:41:26Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework [117.6508659085231]
本稿では論理完全推論フレームワークであるAristotleについて,論理解法,論理解法,論理解法,論理解法の3つの主要なコンポーネントを提案する。
本フレームワークでは,記号表現と論理規則を総合的に推論プロセスに統合する。
いくつかのデータセットの実験結果は、Aristotleが最先端の推論フレームワークを精度と効率の両方で一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-22T10:14:09Z) - Explaining Explanations in Probabilistic Logic Programming [0.0]
ほとんどのアプローチでは、システムはブラックボックスと見なされており、適切な説明を生成することは困難である。
確率論的論理プログラミング(PLP)は、知識表現のための論理プログラミングと不確実性をモデル化する確率を組み合わせたパラダイムである。
本稿では,証明に「選択表現」をラベル付けした PLP の新しいクエリ駆動推論機構の定義に基づく説明法を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:27:37Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond [46.75497042978449]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。