論文の概要: From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
- arxiv url: http://arxiv.org/abs/2510.11457v1
- Date: Mon, 13 Oct 2025 14:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.404142
- Title: From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
- Title(参考訳): Answer>から<Think>へ:LLM最適化のための推論過程の多次元シュミレーション
- Authors: Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu,
- Abstract要約: DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
- 参考スコア(独自算出の注目度): 62.07990937720985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
- Abstract(参考訳): LLM(Large Language Models)の多段階推論能力の向上は、非常に重要な課題である。
支配的なパラダイムである結果教師付き強化学習(RLVR)では、報酬は最終回答のみを正し、しばしば欠陥のある推論を伝播させ、疎い報酬信号に悩まされる。
プロセスレベルの報酬モデル(PRM)は、より密でステップバイステップのフィードバックを提供するが、一般化性や解釈性に欠け、推論プロセスのタスク固有のセグメンテーションを必要とする。
この目的のために我々は,この2つのアプローチのギャップを埋める新しい監視フレームワークであるDmension-level Reward Model (DRM)を提案する。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する:不確実性の校正に対する信頼、意味的アライメントに対する妥当性、論理的一貫性のためのコヒーレンス。
これらの次元は、最終的な答えの正しさを超えた側面を捉え、真理の答えを必要とせずに解釈可能な評価を可能にする。
実験の結果,DRMは効果的な監視信号を提供し,LCMの最適化を誘導し,推論能力を向上することがわかった。
特にDRMを教師とするトレーニングは、数学、質問応答、コード実行、パズルを含む、配布外および配布外の両方のオープンドメインタスクにおいて一貫した利益を達成する。
本研究は, LLMの学習過程の多次元的監督が, 学習分布を超えて, LLMの一般的な推論能力を向上させることを示すものである。
関連論文リスト
- ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Learning Deliberately, Acting Intuitively: Unlocking Test-Time Reasoning in Multimodal LLMs [7.501387372794562]
Deliberate-to-Intuitive reasoning framework (D2I)はマルチモーダル言語モデルの理解と推論能力を改善する。
本手法は,学習中の規則に基づく形式報酬のみを通じて,モダリティアライメントを高めるための意図的な推論戦略を定めている。
評価中、推論スタイルは直感に移行し、トレーニング中の意図的な推論戦略を取り除き、モデルが獲得した応答能力を暗黙的に反映する。
論文 参考訳(メタデータ) (2025-07-09T16:25:44Z) - MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification [27.594868471770475]
推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力である。
プロセスレベルの報酬モデル(PRM)は、強化学習とデータ生産を容易にする段階的な報酬を提供するために提案された。
PRMの既存のベンチマークはテキストベースで、エラー検出に重点を置いており、推論検索のような他のシナリオを無視している。
MPBenchは、様々なシナリオにおけるPRMの有効性を体系的に評価するために設計された、総合的でマルチタスクのマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-03-16T13:50:38Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。