論文の概要: Decoupling Understanding from Reasoning via Problem Space Mapping for Small-scale Model Reasoning
- arxiv url: http://arxiv.org/abs/2508.10019v1
- Date: Thu, 07 Aug 2025 01:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.013209
- Title: Decoupling Understanding from Reasoning via Problem Space Mapping for Small-scale Model Reasoning
- Title(参考訳): 小規模モデル推論のための問題空間マッピングによる推論からの解離
- Authors: Li Wang, Changhao Zhang, Zengqi Xiu, Kai Lu, Xin Yu, Kui Zhang, Wenjun Wu,
- Abstract要約: 本稿では、自然言語問題を標準問題空間にマッピングすることで、推論から理解を分離する新しいフレームワークを提案する。
本フレームワークでは, 自己蒸留による推論軌道を反復的に整列する3段階のアルゴリズムであるDURITを導入する。
実験により、DURITはドメイン内およびドメイン外の数学的および論理的推論タスクにおけるSLMの性能を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 22.582715282848795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in the reasoning capabilities of Large Language Models (LLMs), improving the reasoning ability of Small Language Models (SLMs, e.g., $\leq$ 1.5B) remains challenging. A key obstacle lies in the complexity and variability of natural language: essentially equivalent problems often appear in diverse surface forms, often obscured by redundant or distracting details. This imposes a dual burden on SLMs: they must first extract the core problem from complex linguistic input, and then perform reasoning based on that understanding. The resulting vast and noisy problem space hinders optimization, particularly for models with limited capacity. To address this, we propose a new framework that decouples understanding from reasoning by mapping natural language problems into a canonical problem space-a semantically simplified yet expressive domain. This enables SLMs to focus on reasoning over standardized inputs, free from linguistic variability. Within this framework, we introduce DURIT (Decoupled Understanding from Reasoning via Iterative Training), a three-step algorithm that iteratively: (1) mapping natural language problems via reinforcement learning, (2) aligns reasoning trajectories through self-distillation, and (3) trains reasoning policies in the problem space. The mapper and reasoner are co-trained in an alternating loop throughout this process. Experiments show that DURIT substantially improves SLMs' performance on both in-domain and out-of-domain mathematical and logical reasoning tasks. Beyond improving reasoning capabilities, DURIT also improves the robustness of reasoning, validating decoupling understanding from reasoning as an effective strategy for strengthening SLMs.
- Abstract(参考訳): LLM(Large Language Models)の推論能力の最近の進歩にもかかわらず、SLM(Small Language Models)の推論能力の改善(例えば、$\leq$ 1.5B)は依然として困難である。
自然言語の複雑さと可変性には大きな障害がある:本質的には、様々な表面形式に等価な問題がしばしば現れ、しばしば冗長性や注意をそらす詳細によって隠蔽される。
それらはまず、複雑な言語入力からコア問題を抽出し、その理解に基づいて推論を行う必要がある。
結果として生じる巨大でノイズの多い問題空間は、特に限られた容量を持つモデルに対する最適化を妨げる。
そこで本稿では,自然言語問題を正規問題空間にマッピングすることで,推論から理解を分離するフレームワークを提案する。
これにより、SLMは言語的多様性のない標準化された入力に対する推論に集中することができる。
本枠組みでは,(1)強化学習による自然言語問題のマッピング,(2)自己蒸留による推論軌道の整列,(3)問題空間における推論ポリシーの導出という3段階のアルゴリズムであるDURIT(Decoupled Understanding from Reasoning via Iterative Training)を導入する。
マッパーと推論子は、このプロセスを通して交互に学習される。
実験により、DURITはドメイン内およびドメイン外の数学的および論理的推論タスクにおけるSLMの性能を大幅に改善することが示された。
推論能力の改善に加えて、DURITは推論の堅牢性を改善し、SLMを強化する効果的な戦略として推論から分離された理解を検証する。
関連論文リスト
- Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - General Intelligence Requires Reward-based Pretraining [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。
しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。
我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:51:12Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。