論文の概要: CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2512.18857v1
- Date: Sun, 21 Dec 2025 19:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.531196
- Title: CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning
- Title(参考訳): CORE: 数学的推論における定義応用ギャップのブリッジ化のための概念指向強化
- Authors: Zijun Gao, Zhikun Xu, Xiao Ye, Ben Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば挑戦的な数学演習を解くが、真に理解を必要とする場合、その概念を正しく適用できない。
明示的な概念を制御可能な監視信号に変換するRLトレーニングフレームワークであるCORE(Concept-Oriented Reinforcement)を紹介する。
- 参考スコア(独自算出の注目度): 11.332501212320194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often solve challenging math exercises yet fail to apply the concept right when the problem requires genuine understanding. Popular Reinforcement Learning with Verifiable Rewards (RLVR) pipelines reinforce final answers but provide little fine-grained conceptual signal, so models improve at pattern reuse rather than conceptual applications. We introduce CORE (Concept-Oriented REinforcement), an RL training framework that turns explicit concepts into a controllable supervision signal. Starting from a high-quality, low-contamination textbook resource that links verifiable exercises to concise concept descriptions, we run a sanity probe showing LLMs can restate definitions but fail concept-linked quizzes, quantifying the conceptual reasoning gap. CORE then (i) synthesizes concept-aligned quizzes, (ii) injects brief concept snippets during rollouts to elicit concept-primed trajectories, and (iii) reinforces conceptual reasoning via trajectory replacement after group failures, a lightweight forward-KL constraint that aligns unguided with concept-primed policies, or standard GRPO directly on concept-aligned quizzes. Across several models, CORE delivers consistent gains over vanilla and SFT baselines on both in-domain concept-exercise suites and diverse out-of-domain math benchmarks. CORE unifies direct training on concept-aligned quizzes and concept-injected rollouts under outcome regularization. It provides fine-grained conceptual supervision that bridges problem-solving competence and genuine conceptual reasoning, while remaining algorithm- and verifier-agnostic.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば挑戦的な数学演習を解くが、真に理解を必要とする場合、その概念を正しく適用できない。
一般的なReinforcement Learning with Verifiable Rewards (RLVR)パイプラインは最終回答を補強するが、詳細な概念的信号はほとんど提供しないため、モデルは概念的応用よりもパターン再利用において改善される。
明示的な概念を制御可能な監視信号に変換するRLトレーニングフレームワークであるCORE(Concept-Oriented Reinforcement)を紹介する。
検証可能な演習と簡潔な概念記述をリンクする高品質で低汚染の教科書資料から、LCMが定義を再定義できるが概念リンクされたクイズを失敗し、概念推論のギャップを定量化できることを示すサニティプローブを実行する。
その後のCORE
(i)概念に沿ったクイズを合成する。
(二)ロールアウト中に簡単なコンセプトスニペットを注入して、コンセプトプリミティブな軌道を誘導し、
三 グループ失敗後の軌道置換による概念推論、概念優先の方針に一致しない軽量のフォワード-KL制約、あるいは概念整合クイズに直接標準GRPOを適用することによる概念推論を強化する。
いくつかのモデルにおいて、COREはバニラとSFTのベースラインに対して、ドメイン内のコンセプトエクササイズスイートとさまざまなドメイン外の数学ベンチマークの両方で一貫したゲインを提供する。
COREは、結果レギュラー化の下で概念整合型クイズと概念注入型ロールアウトの直接的なトレーニングを統一する。
問題解決能力と真の概念的推論を橋渡しし、アルゴリズムと検証者に依存しないまま、きめ細かい概念的監督を提供する。
関連論文リスト
- FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Zero-shot Concept Bottleneck Models [17.70684428339905]
概念ボトルネックモデル(CBM)は本質的に解釈可能で、解釈可能なニューラルネットワークモデルである。
ニューラルネットワークを訓練することなく,概念やラベルをゼロショットで予測するテクスツケロ・ショット・コンセプト・ボトルネック・モデル(Z-CBM)を提案する。
論文 参考訳(メタデータ) (2025-02-13T07:11:07Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Incorporating Expert Rules into Neural Networks in the Framework of
Concept-Based Learning [2.9370710299422598]
論理規則とニューラルネットワークを組み合わせて概念の確率を予測する方法が提案されている。
提案する課題の解決とニューラルネットワークのトレーニングに,いくつかのアプローチを提案する。
提案されたアルゴリズムのコードは公開されている。
論文 参考訳(メタデータ) (2024-02-22T17:33:49Z) - Abstracting Concept-Changing Rules for Solving Raven's Progressive
Matrix Problems [54.26307134687171]
Raven's Progressive Matrix (RPM) は、候補者の中から選択することで、機械知能においてそのような能力を実現する古典的なテストである。
近年の研究では、RPMの解法はルールの深い理解を促進することが示唆されている。
本稿では、解釈可能な概念を学習し、潜在空間における概念変更ルールを解析することにより、概念変更ルールABstraction(CRAB)の潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2023-07-15T07:16:38Z) - Interpretable Neural-Symbolic Concept Reasoning [7.1904050674791185]
概念に基づくモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処することを目的としている。
本稿では,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。
論文 参考訳(メタデータ) (2023-04-27T09:58:15Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。