論文の概要: When Do Symbolic Solvers Enhance Reasoning in Large Language Models?
- arxiv url: http://arxiv.org/abs/2512.03272v1
- Date: Tue, 02 Dec 2025 22:23:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:10:13.915185
- Title: When Do Symbolic Solvers Enhance Reasoning in Large Language Models?
- Title(参考訳): シンボリック・ソルバーはいつ、大言語モデルで推論されるのか?
- Authors: Zhiyuan He, Dingmin Wang,
- Abstract要約: 大きな推論モデル(LRM)は思考の長い鎖(CoT)を生成することによって複雑な推論タスクにおいて強い性能を達成する
これはLLMのコード生成機能を利用して推論タスクを実行可能なコードに変換し、シンボリック・ソルバで解決する。
実験結果から,記号解法は暗黙的推論を必要とするが,十分な探索空間を必要とする場合にのみ有効であることがわかった。
- 参考スコア(独自算出の注目度): 9.02964480989444
- License:
- Abstract: Large Reasoning Models (LRMs) achieve strong performance on complex reasoning tasks by generating long Chains of Thought (CoTs). However, this paradigm might incur substantial token overhead, especially when models "overthink" by producing lengthy reasoning chains, which can even lead to incorrect answers. A promising direction is the symbolic-solver-integrated approach, which leverages the code generation capabilities of LLMs to translate reasoning tasks into executable code and then solve them with a symbolic solver. In this paper, we explore an open question of when the conventional long-CoT can be enhanced by symbolic solvers. Our experimental results show that the symbolic-solver-integrated method only helps when the problem requires limited implicit reasoning but involves an ample search space. The latest LLMs, like GPT-4o, show better performance on deductive problems with shallow reasoning depth, while the symbolic-solver-integrated method significantly improves the LLMs' performance in constraint satisfaction problems that require repeated backtracks. When a declarative exemplar is provided, even CodeLlama-13B can outperform GPT-4o in difficult Zebra puzzles.
- Abstract(参考訳): 大規模推論モデル(LRM)は思考の長い連鎖(CoT)を生成することによって複雑な推論タスクにおいて高い性能を達成する。
しかし、このパラダイムは、特にモデルが長い推論連鎖を生成することによって「過度に考える」場合に、かなりのトークンオーバーヘッドを引き起こす可能性がある。
これはLLMのコード生成機能を利用して推論タスクを実行可能なコードに変換し、シンボリック・ソルバで解決する。
本稿では,従来のLong-CoTをシンボリック・ソルバで拡張する方法について,オープンな考察を行う。
実験結果から,記号解法は暗黙的推論を必要とするが,十分な探索空間を必要とする場合にのみ有効であることがわかった。
GPT-4o のような最新の LLM は、深い推論深度で導出問題に優れた性能を示す一方、シンボル-ソルバ積分法は、繰り返しバックトラックを必要とする制約満足度問題における LLM の性能を著しく向上させる。
宣言的外見が提供されると、CodeLlama-13Bでも難解なZebraパズルにおいてGPT-4oより優れる。
関連論文リスト
- Worst-Case Symbolic Constraints Analysis and Generalisation with Large Language Models [7.658134651527103]
最悪のケースのシンボリック制約分析では、最悪のケースのプログラムの実行を特徴付けるシンボリック制約を推論する必要がある。
我々は,現在最先端の大規模言語モデル (LLM) でさえ,このタスクに直接適用した場合に苦労することを示す。
我々は,より小さな具体的入力サイズに対する最悪の制約を計算する,革新的ニューロシンボリックアプローチであるWARPを提案する。
論文 参考訳(メタデータ) (2025-06-09T19:33:30Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。