論文の概要: LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04821v1
- Date: Thu, 05 Jun 2025 09:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.637824
- Title: LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning
- Title(参考訳): LogicPuzzleRL:強化学習によるLLMにおけるロバスト数学的推論の育成
- Authors: Zhen Hao Wong, Jingwen Deng, Runming He, Zirong Chen, Qijie You, Hejun Dong, Hao Liang, Chengyu Shen, Bin Cui, Wentao Zhang,
- Abstract要約: 大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.047063129464494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at many supervised tasks but often struggle with structured reasoning in unfamiliar settings. This discrepancy suggests that standard fine-tuning pipelines may instill narrow, domain-specific heuristics rather than fostering general-purpose thinking strategies. In this work, we propose a "play to learn" framework that fine-tunes LLMs through reinforcement learning on a suite of seven custom logic puzzles, each designed to cultivate distinct reasoning skills such as constraint propagation, spatial consistency, and symbolic deduction. Using a reinforcement learning setup with verifiable rewards, models receive binary feedback based on puzzle correctness, encouraging iterative, hypothesis-driven problem solving. We demonstrate that this training approach significantly improves out-of-distribution performance on a range of mathematical benchmarks, especially for mid-difficulty problems that require multi-step reasoning. Analyses across problem categories and difficulty levels reveal that puzzle training promotes transferable reasoning routines, strengthening algebraic manipulation, geometric inference, and combinatorial logic, while offering limited gains on rote or highly specialized tasks. These findings show that reinforcement learning over logic puzzles reshapes the internal reasoning of LLMs, enabling more robust and compositional generalization without relying on task-specific symbolic tools.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの教師付きタスクで優れているが、よく知らない設定で構造化推論に苦労する。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むよりも、狭く、ドメイン固有のヒューリスティックを注入する可能性があることを示唆している。
本研究では,制約伝播,空間整合性,記号推論など,異なる推論スキルを育成するための7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
検証可能な報酬を備えた強化学習セットを使用して、モデルはパズルの正しさに基づいたバイナリフィードバックを受け取り、反復的で仮説駆動の問題解決を奨励する。
この学習手法は,多段階推論を必要とする中級微分問題に対して,様々な数学ベンチマークにおける分布外性能を著しく向上させることを示した。
問題カテゴリや難易度に関する分析では、パズルトレーニングは伝達可能な推論ルーチンを促進し、代数的操作、幾何学的推論、組合せ論理を強化し、ロートや高度に専門化されたタスクに限定的な利得を提供する。
これらの結果から,論理パズルによる強化学習はLLMの内部的推論に反し,タスク固有のシンボルツールに頼ることなく,より堅牢で構成的な一般化を可能にすることが示唆された。
関連論文リスト
- Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving [4.987786842464663]
Tree-of-Thoughts (ToT) は、ツリー構造内の探索として推論をモデル化することによって、概念的により高度なアプローチを提供する。
ToTRLは、逐次CoT戦略に基づく並列ToT戦略の開発においてLLMを導くように設計されている。
ToTQwen3-8Bモデルは,複雑な推論タスクの性能向上と推論効率の向上を実現している。
論文 参考訳(メタデータ) (2025-05-19T05:18:58Z) - VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.645103181716678]
LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。
VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。
以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-29T12:50:38Z) - Beyond Interpolation: Extrapolative Reasoning with Reinforcement Learning and Graph Neural Networks [18.982541044390384]
本研究では, アーキテクチャの帰納バイアス, 異なる報酬システム, 逐次推論を実現する上での反復モデリングの役割に焦点をあてる。
これらの要素が、ますます複雑なパズルに対する外挿の成功にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2025-02-06T08:07:35Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。