論文の概要: Reasoning: From Reflection to Solution
- arxiv url: http://arxiv.org/abs/2511.11712v1
- Date: Wed, 12 Nov 2025 17:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.084199
- Title: Reasoning: From Reflection to Solution
- Title(参考訳): 推論:リフレクションからソリューションへ
- Authors: Zixi Li,
- Abstract要約: GSM8KやHumanEvalのようなベンチマークで超人的なパフォーマンスを達成する大規模言語モデルの時代において、私たちは問う必要がある。
textbfreasoning is iterative operator application in state space, converging to fixed point。
研究は、まず、OpenXOR(英語版)から始まり、理論(OpenOperator)を通じて進行し、最先端のLLMが0%の精度で76%の精度で作業解(OpenLM)を達成します。
- 参考スコア(独自算出の注目度): 0.16244541005112745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is reasoning? This question has driven centuries of philosophical inquiry, from Aristotle's syllogisms to modern computational complexity theory. In the age of large language models achieving superhuman performance on benchmarks like GSM8K (95\% accuracy) and HumanEval (90\% pass@1), we must ask: have these systems learned to \emph{reason}, or have they learned to \emph{pattern-match over reasoning traces}? This paper argues for a specific answer: \textbf{reasoning is iterative operator application in state spaces, converging to fixed points}. This definition is not merely philosophical -- it has concrete architectural implications that explain both the failures of current systems and the path to genuine reasoning capabilities. Our investigation begins with a puzzle (OpenXOR), progresses through theory (OpenOperator), and culminates in a working solution (OpenLM) that achieves 76\% accuracy where state-of-the-art LLMs achieve 0\%. This is not about criticizing existing systems, but about \emph{understanding what reasoning requires} and \emph{building architectures that provide it}.
- Abstract(参考訳): 理由とは何か?
この問題は、アリストテレスのシロジズムから現代の計算複雑性理論まで、何世紀にもわたる哲学的な探究を導いた。
GSM8K (95 %の精度)やHumanEval (90 %のpass@1)のようなベンチマークで超人的なパフォーマンスを達成する大規模言語モデルの時代には、これらのシステムは \emph{reason} に学習されているのか、それとも、トレースの推論について \emph{pattern-match に学習されているのか?
この論文は、特定の答えを主張する: \textbf{reasoning は状態空間におけるイテレーティブ作用素の応用であり、固定点に収束する。
この定義は単なる哲学的ではなく、現在のシステムの失敗と真の推論能力への道筋を説明する具体的なアーキテクチャ上の意味を持っている。
我々の研究は、まずパズル(OpenXOR)から始まり、理論(OpenOperator)を通じて進行し、最先端のLLMが0\%に達すると、76\%の精度で作業解(OpenLM)を達成します。
これは、既存のシステムを批判することではなく、それを提供する、推論に何が必要か、そして、それを提供するアーキテクチャについてである。
関連論文リスト
- Measuring Reasoning in LLMs: a New Dialectical Angle [0.0]
本稿では,言語モデルの推論を弁証学で評価する構造化フレームワークSIEVを提案する。
従来の評価とは異なり、SIEVはモデルが到達した結論だけでなく、どのように到達するかを評価する。
例えば、最近のモデルであるGPT-5-chatは、GSM上のSIEVで評価すると40ポイント以上(100点中)を失う。
論文 参考訳(メタデータ) (2025-10-20T22:08:59Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - The quasi-semantic competence of LLMs: a case study on the part-whole relation [53.37191762146552]
我々は,アンフィパル・ホール関係,すなわちアンフェロニミーの知識について検討する。
Emphquasi-semantic'のモデルは、単にemphquasi-semantic'の能力を持つだけで、深い推論特性の取得には至っていないことを示す。
論文 参考訳(メタデータ) (2025-04-03T08:41:26Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Explaining Explanations in Probabilistic Logic Programming [0.0]
ほとんどのアプローチでは、システムはブラックボックスと見なされており、適切な説明を生成することは困難である。
確率論的論理プログラミング(PLP)は、知識表現のための論理プログラミングと不確実性をモデル化する確率を組み合わせたパラダイムである。
本稿では,証明に「選択表現」をラベル付けした PLP の新しいクエリ駆動推論機構の定義に基づく説明法を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:27:37Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond [46.75497042978449]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。