論文の概要: CoreThink: A Symbolic Reasoning Layer to reason over Long Horizon Tasks with LLMs
- arxiv url: http://arxiv.org/abs/2509.00971v2
- Date: Wed, 03 Sep 2025 05:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.482265
- Title: CoreThink: A Symbolic Reasoning Layer to reason over Long Horizon Tasks with LLMs
- Title(参考訳): CoreThink: LLMによる長い水平タスクを推論するシンボリック推論レイヤ
- Authors: Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley,
- Abstract要約: 我々は、General Symbolicsと呼ばれる新しい推論法に基づいて構築された、最先端の推論層CoreThinkを紹介する。
このアプローチは、テストタイムスケーリング、監視ファインチューニング(SFT)、検証リワードによる強化学習(RLVR)といった推論パラダイムから分岐する。
- 参考スコア(独自算出の注目度): 14.437990879740191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CoreThink, a state-of-the-art Reasoning Layer built upon a novel reasoning method called General Symbolics. This approach diverges from reasoning paradigms such as test-time scaling, Supervised Fine-Tuning (SFT), and Reinforcement Learning with Verifiable Rewards (RLVR). CoreThink General Symbolic Reasoner (GSR) is specifically structured around three key use cases: tool-calling, code generation, and planning, demonstrating exemplary performance across a total of seven benchmarks in their respective areas. Notably, we are achieving SOTA scores of 66.66% on Livecodebench v6, 89% on Instruction-Following Evals, and 24.4% on ARC-AGI-2. We also present an agentic coding IDE, developed using the principles of General Symbolics, which achieves a state-of-the-art accuracy of 62.3% on SWE-Bench Lite. We are able to achieve these improvements without any fine-tuning or training costs. Our Reasoning Layer is designed to provide a pure performance uplift, ensuring that a model's accuracy on reasoning tasks is never negatively impacted. We argue that incumbent methods will eventually lead to diminishing returns in LLM performance, necessitating the development of new reasoning techniques. This technical report details our approach at a high level and the availability of the CoreThink models for reasoning-intensive use cases.
- Abstract(参考訳): 我々は、General Symbolicsと呼ばれる新しい推論法に基づいて構築された、最先端の推論層CoreThinkを紹介する。
このアプローチは、テストタイムスケーリング、スーパービジョンファインチューニング(SFT)、Reinforcement Learning with Verifiable Rewards(RLVR)といった推論パラダイムから分岐する。
CoreThink General Symbolic Reasoner (GSR)は、ツールコール、コード生成、計画という3つの主要なユースケースを中心に構築されており、それぞれの領域で合計7つのベンチマークで模範的なパフォーマンスを示している。
特に、Livecodebench v6では66.66%、インストラクションフォローEvalでは89%、ARC-AGI-2では24.4%のSOTAスコアを達成しています。
また,SWE-Bench Lite上で62.3%の最先端精度を実現するためのエージェントコーディングIDEも提案する。
これらの改善は、微調整やトレーニングのコストを伴わずに達成できます。
私たちのReasoning Layerは純粋なパフォーマンス向上を提供するように設計されています。
既存の手法は最終的にLLM性能の低下を招き,新たな推論手法の開発を必要としている。
この技術的レポートでは、高いレベルでのアプローチと、推論集約的なユースケースに対するCoreThinkモデルの可用性について詳述しています。
関連論文リスト
- CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning [8.197518276987989]
コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。
それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。
これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。
データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-23T14:26:58Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability [3.2561294196141835]
本稿では,事実的精度と推論的推論を両立させる新しい復号法を提案する。
提案手法は,トランスフォーマーの下位層から上位層へのロジットの軌跡を解析することにより,次の確率を調節する。
TruthfulQAの実験では、DeLTaはベースラインよりも4.9%改善されている。
論文 参考訳(メタデータ) (2025-03-04T07:07:17Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。