論文の概要: NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic NP Problems
- arxiv url: http://arxiv.org/abs/2510.16476v1
- Date: Sat, 18 Oct 2025 12:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.011363
- Title: NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic NP Problems
- Title(参考訳): NPエンジン: NP問題の検証が可能な大規模言語モデルにおける最適化推論の強化
- Authors: Xiaozhe Li, Xinyu Fang, Shengyuan Ding, Linyang Li, Haodong Duan, Qingwen Liu, Kai Chen,
- Abstract要約: NP-ENGINEは,NP-hard問題に対する大規模言語モデル(LLM)の学習と評価のための,最初の総合的なフレームワークである。
NP-ENGINEは、(i)制御可能なインスタンスジェネレータ、(ii)ルールベースの検証器、(iii)ソルバを備えた5つのドメインにわたる10のタスクをカバーする。
NP-BENCHは、NP-hardレベルの推論問題に対処するLLMの能力を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 37.22951916395562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown strong reasoning capabilities, with models like OpenAI's O-series and DeepSeek R1 excelling at tasks such as mathematics, coding, logic, and puzzles through Reinforcement Learning with Verifiable Rewards (RLVR). However, their ability to solve more complex optimization problems - particularly NP-hard tasks - remains underexplored. To bridge this gap, we propose NP-ENGINE, the first comprehensive framework for training and evaluating LLMs on NP-hard problems. NP-ENGINE covers 10 tasks across five domains, each equipped with (i) a controllable instance generator, (ii) a rule-based verifier, and (iii) a heuristic solver that provides approximate optimal solutions as ground truth. This generator-verifier-heuristic pipeline enables scalable and verifiable RLVR training under hierarchical difficulties. We also introduce NP-BENCH, a benchmark derived from NP-ENGINE-DATA, specifically designed to evaluate LLMs' ability to tackle NP-hard level reasoning problems, focusing not only on feasibility but also on solution quality. Additionally, we present QWEN2.5-7B-NP, a model trained via zero-RLVR with curriculum learning on Qwen2.5-7B-Instruct, which significantly outperforms GPT-4o on NP-BENCH and achieves SOTA performance with the same model size. Beyond in-domain tasks, we demonstrate that RLVR training on NP-ENGINE-DATA enables strong out-of-domain (OOD) generalization to reasoning tasks (logic, puzzles, math, and knowledge), as well as non-reasoning tasks such as instruction following. We also observe a scaling trend: increasing task diversity improves OOD generalization. These findings suggest that task-rich RLVR training is a promising direction for advancing LLM's reasoning ability, revealing new insights into the scaling laws of RLVR.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な推論能力を示しており、OpenAIのOシリーズやDeepSeek R1のようなモデルは、RLVR(Reinforcement Learning with Verifiable Rewards)を通じて数学、コーディング、ロジック、パズルなどのタスクに優れています。
しかし、より複雑な最適化問題(特にNP-hardタスク)を解く能力は未定である。
このギャップを埋めるために,NP-ENGINEを提案する。
NP-ENGINEは5つのドメインに10のタスクをカバーし、それぞれが装備されている。
i) 制御可能なインスタンスジェネレータ
二 規則に基づく検証者、及び
3) 基底真理として近似最適解を提供するヒューリスティック解法。
このジェネレータ検証ヒューリスティックパイプラインは、階層的困難下でスケーラブルで検証可能なRLVRトレーニングを可能にする。
また、NP-ENGINE-DATAから派生したベンチマークNP-BENCHを導入し、NP-hardレベルの推論問題に取り組み、実現可能性だけでなく、ソリューションの品質にも焦点をあてることを目的としている。
さらに、QWEN2.5-7B-NPは、ゼロRLVRで訓練されたモデルで、Qwen2.5-7B-Instructでカリキュラムを学習し、NP-BENCHでGPT-4oを著しく上回り、同じモデルサイズでSOTA性能を達成する。
ドメイン内タスク以外にも,NP-ENGINE-DATA上でのRLVRトレーニングにより,推論タスク(論理,パズル,数学,知識)や,命令の追従といった非推論タスクに対して,強い外部ドメイン(OOD)の一般化が可能になることを実証する。
タスクの多様性の向上はOODの一般化を改善する。
これらの結果は,タスクリッチなRLVRトレーニングがLLMの推論能力を向上させる上で有望な方向であることを示し,RLVRのスケーリング法則に対する新たな洞察を明らかにした。
関連論文リスト
- Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - Tackling GNARLy Problems: Graph Neural Algorithmic Reasoning Reimagined through Reinforcement Learning [16.86460241152363]
アルゴリズム推論(英: Algorithmic Reasoning、NAR)は、ニューラルネットワークが教師あり学習によって古典的なアルゴリズムを実行するように訓練するパラダイムである。
本稿では,問題定式化をNARからRLに翻訳する手法を含むGNARLフレームワークと,幅広いグラフベースの問題に適した学習アーキテクチャを提案する。
いくつかのCLRS-30問題に対して非常に高いグラフ精度を達成し、NPハード問題に対するより狭いNARアプローチや、専門家アルゴリズムが欠如している場合でも驚くほど適用可能である。
論文 参考訳(メタデータ) (2025-09-23T12:49:25Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - ACCORD: Autoregressive Constraint-satisfying Generation for COmbinatorial Optimization with Routing and Dynamic attention [3.435169201271934]
大規模言語モデル (LLM) は印象的な推論能力を示しているが、NP-hard problem (CP) への直接的応用は未定である。
本稿では, 自動回帰制約充足生成法(ACCORD: Autoregressive Constraint-Satisfying generation)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T09:33:55Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Bridge the Inference Gaps of Neural Processes via Expectation Maximization [27.92039393053804]
ニューラルプロセス (NP) は関数上の分布を学習するための計算効率の良いモデルのファミリーである。
本稿では,期待フレームワーク内でのメタデータセットのログライクなターゲットのサロゲート目的を提案する。
結果のモデルは、自己正規化重み付きニューラルネットワーク(SI-NP)と呼ばれ、より正確な機能前処理を学習することができる。
論文 参考訳(メタデータ) (2025-01-04T03:28:21Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。