Fugu-MT 論文翻訳(概要): OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning

論文の概要: OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2311.09724v2
Date: Mon, 1 Apr 2024 13:50:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 12:23:14.895191
Title: OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning
Title（参考訳）: 数学的推論における計画のためのOVM, アウトカム教師付き価値モデル
Authors: Fei Yu, Anningzhe Gao, Benyou Wang,
Abstract要約: 我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。 GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
参考スコア（独自算出の注目度）: 15.59540726867483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often struggle with maintaining accuracy throughout multiple multiple reasoning steps, especially in mathematical reasoning where an error in earlier steps can propagate to subsequent ones and it ultimately leading to an incorrect answer. To reduce error propagation, guided decoding is employed to direct the LM decoding on a step-by-step basis. We argue that in guided decoding, assessing the potential of an incomplete reasoning path can be more advantageous than simply ensuring per-step correctness, as the former approach leads towards a correct final answer. This transforms the task into a $\textit{value estimation}$ problem in planning. Inspired by the findings that $\textit{outcome supervision for guided decoding essentially acts as a value model}$, we propose Outcome-supervised Value Model (OVM) that employs outcome supervision for training a value model, which prioritizes steps that lead to accurate conclusions. Furthermore, the OVM eliminates the need for labor-intensive annotations of step-level correctness, thereby significantly enhancing its scalability. Our experiments on two multi-step mathematical reasoning datasets, GSM8K and Game of 24, demonstrate the superior performance of the OVM model. Notably, in GSM8K, our $\textbf{OVM-7B model achieves state-of-the-art results among LLMs up to 13B parameters}$; especially it does not utilize GPT-4 or code execution. These findings offer a novel perspective on the role of outcome supervision in training value models for multi-step reasoning tasks and provide theoretical justification for its advantage in value estimation for guided decoding.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば複数の推論ステップを通して正確性を維持するのに苦労する。誤りの伝播を低減するため、ステップバイステップでLM復号を指示するためにガイドデコードを用いる。我々は、ガイド付き復号法において、不完全推論経路の可能性を評価することは、前者のアプローチが正しい最終解へと導くため、単にステップごとの正しさを保証することよりも、より有利であると主張している。これにより、タスクは計画時の$\textit{value Estimation}$問題に変換される。誘導復号化のための$\textit{outcome supervision for guided decoding}$は基本的に値モデルとして機能する。さらに、OVMは、ステップレベルの正確性の労働集約的なアノテーションの必要性を排除し、スケーラビリティを大幅に向上させる。 GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能が示された。特に、GSM8Kでは、我々の$\textbf{OVM-7Bモデルは、13BパラメータまでLLMの最先端結果を達成する。これらの知見は、多段階推論タスクのトレーニング値モデルにおける結果管理の役割に関する新たな視点を提供し、ガイド付き復号における値推定の利点を理論的に正当化するものである。

関連論文リスト

Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling [21.45871501724415]
高精度な推論モデルエラーを自動的に構築するデータ駆動型手法を提案する。ラグビーはより強力なLSM-as-judge報酬関数を構築するのに使うことができる。この拡張は、ゴールドラベルの完全なデータセットなしで複雑な技術的問題を解決するモデルを教えるための扉を開く。
論文参考訳（メタデータ） (2026-02-06T15:51:52Z)
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。 Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文参考訳（メタデータ） (2026-01-20T18:15:38Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。 DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文参考訳（メタデータ） (2025-10-13T14:29:15Z)
Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文参考訳（メタデータ） (2025-09-15T21:47:52Z)
GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。 GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文参考訳（メタデータ） (2025-08-06T05:10:29Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values [31.415598465903884]
直接価値最適化(DVO)は、複雑な推論タスクにおいて大きな言語モデルを拡張するための革新的な強化学習フレームワークである。 DVOは個々の推論ステップで値信号を利用し、平均2乗誤差損失によってモデルを最適化する。数学的および常識的推論タスクに関する実証分析により、DVOは既存のオフライン優先最適化手法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-02-19T13:51:05Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。 RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文参考訳（メタデータ） (2024-02-08T16:46:26Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)
Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。 VaGraMは価値認識モデル学習の新しい手法である。
論文参考訳（メタデータ） (2022-04-04T13:28:31Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。