論文の概要: Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
- arxiv url: http://arxiv.org/abs/2505.19914v2
- Date: Mon, 09 Jun 2025 07:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.138941
- Title: Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles
- Title(参考訳): Enigmata: 合成検証可能なパズルを持つ大規模言語モデルにおける論理的推論のスケーリング
- Authors: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang,
- Abstract要約: エニグマタ(Enigmata)は,パズル推論スキルを備えた大規模言語モデルの改良に適した,最初の包括的スイートである。
これには、7つのカテゴリにわたる36のタスクが含まれており、それぞれが、制御可能な難易度を持つ無制限なサンプルを生成するジェネレータと、自動評価のためのルールベースの検証器を備えている。
私たちのトレーニングモデルであるQwen2.5-32B-Enigmataは、パズル推論ベンチマークにおいて、o3-mini-highとo1を一貫して上回ります。
- 参考スコア(独自算出の注目度): 46.71887319140096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.
- Abstract(参考訳): OpenAIのo1やDeepSeekのR1のような大規模言語モデル(LLM)は、数学やReinforcement Learning with Verifiable Rewards(RLVR)によるコーディングといった高度な推論タスクに優れていますが、ドメイン知識のない人間によって解けるパズルに苦戦しています。
エニグマタ(Enigmata)は,パズル推論技術を用いたLLMの改良に適した,最初の総合的なスイートである。
7つのカテゴリにまたがる36のタスクがある。
一 制御し難い無限の例を生産する発電機
2)自動評価のためのルールベースの検証装置。
このジェネレータ検証設計は、スケーラブルでマルチタスクのRLトレーニング、きめ細かい分析、シームレスなRLVR統合をサポートする。
さらに、厳密なベンチマークであるEnigmata-Evalを提案し、最適化されたマルチタスクRLVR戦略を開発する。
私たちのトレーニングモデルであるQwen2.5-32B-Enigmataは、Enigmata-Eval、ARC-AGI (32.8%)、ARC-AGI 2 (0.6%)といったパズル推論ベンチマークにおいて、o3-mini-highとo1を一貫して上回ります。
また、ドメイン外パズルベンチマークや数学的推論にも適しており、マルチタスクのトレードオフはほとんどない。
Seed1.5-Thinking (20Bアクティベートパラメータと200Bトータルパラメータ)のようなより大きなモデルでトレーニングすると、Enigmataのパズルデータは、高度な数学とAIME (2024-2025)、BeyondAIME、GPQA (ダイアモンド)といったSTEM推論タスクにおけるSoTAのパフォーマンスをさらに向上させ、Enigmataの優れた一般化の利点を示している。
この研究は、LLMにおける論理的推論を進めるための統一的で制御可能なフレームワークを提供する。
この研究のリソースはhttps://seed-enigmata.github.io.comにある。
関連論文リスト
- Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - Diverse Inference and Verification for Advanced Reasoning [19.88677753421871]
OpenAI o1、o3、DeepSeek R1のようなLLMの推論は数学とコーディングに大きな進歩をもたらした。
テスト時に複数のモデルとメソッドを組み合わせる、さまざまな推論アプローチを使用します。
数学や符号問題の検証や他の問題に対する拒絶サンプリングは簡単かつ効果的であることがわかった。
論文 参考訳(メタデータ) (2025-02-14T07:22:25Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。
このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。
また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-07-04T14:22:25Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。