Fugu-MT 論文翻訳(概要): Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning

論文の概要: Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2501.13622v2
Date: Sun, 16 Feb 2025 13:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.382166
Title: Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning
Title（参考訳）: 数理推論のための粗大なプロセスリワードモデリング
Authors: Yulan Hu, Sheng Ouyang, Yong Liu,
Abstract要約: 大規模言語モデル(LLM)は、厳密なインクリメンタルな情報を示すのに失敗することが多い。そこで本研究では,単純かつ効果的な粗大な戦略であるモデルを提案する。モデルは、重要なきめ細かい知識を保持しながら冗長性を緩和する。
参考スコア（独自算出の注目度）: 9.762206595024
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The Process Reward Model (PRM) plays a crucial role in mathematical reasoning tasks, requiring high-quality supervised process data. However, we observe that reasoning steps generated by Large Language Models (LLMs) often fail to exhibit strictly incremental information, leading to redundancy that can hinder effective reasoning. To address this issue, we propose \model, a simple yet effective coarse-to-fine strategy. Instead of focusing on the detection of redundant steps, our approach first establishes a coarse-grained window to merge adjacent reasoning steps into unified, holistic steps. The window size is then progressively reduced to extract fine-grained reasoning steps, enabling data collection at multiple granularities for training. By leveraging this hierarchical refinement process, \model mitigates redundancy while preserving essential fine-grained knowledge. Extensive experiments on two reasoning datasets across three loss criteria validate the \model's effectiveness and versatility.
Abstract（参考訳）: プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。しかし,Large Language Models (LLMs) が生成する推論ステップは,厳密なインクリメンタルな情報表示に失敗することが多く,効果的な推論を阻害する原因となる。この問題に対処するために、簡単なが効果的な粗大な戦略である \model を提案する。冗長なステップの検出に焦点をあてる代わりに、我々のアプローチはまず、隣接する推論ステップを統一的で全体的なステップにマージする粗い粒度の窓を確立する。次に、ウィンドウサイズを徐々に小さくし、微粒な推論ステップを抽出し、トレーニングのために複数の粒度のデータ収集を可能にする。この階層的な洗練プロセスを活用することで、モデルが重要なきめ細かな知識を保持しながら冗長性を緩和する。 3つの損失基準にまたがる2つの推論データセットに関する大規模な実験は、モデルの有効性と汎用性を検証する。

関連論文リスト

Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning [10.227089771963943]
本稿では,自動プロセス報酬データ構築のための不確実性駆動型フレームワークを提案する。本稿では,2つの一般的な不確実性を考慮した出力アグリゲーション手法を提案する。 ProcessBench、MATH、GSMPlusの実験では、提案したPRMデータ構築フレームワークの有効性と効率が示されている。
論文参考訳（メタデータ） (2025-08-03T14:14:13Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文参考訳（メタデータ） (2025-05-20T14:12:05Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文参考訳（メタデータ） (2025-03-16T15:18:40Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。 ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文参考訳（メタデータ） (2025-01-14T05:56:26Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。提案手法は,従来の検証手法に比べて2～3倍の効率を維持しつつ,大幅な精度向上(8～11%)を実現している。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Keypoint-based Progressive Chain-of-Thought Distillation for LLMs [46.53906673648466]
思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。我々はこれらの問題に対処する統合フレームワークKPODを提案する。
論文参考訳（メタデータ） (2024-05-25T05:27:38Z)
On the Empirical Complexity of Reasoning and Planning in LLMs [29.588100727466976]
Chain-of-Thought(CoT)、tree-of-Thought(ToT)、および関連するテクニックは、大規模言語モデル(LLM)を用いた複雑な推論タスクにおいて、実際に驚くほどうまく機能する。この研究は、実験ケーススタディを実行し、パフォーマンスの利点を機械学習における十分に確立されたサンプルと計算の複雑さの原則に結びつけることによって、根本的な理由を追求する。
論文参考訳（メタデータ） (2024-04-17T03:34:27Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Counterfactual Learning of Stochastic Policies with Continuous Actions [42.903292639112536]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。対実学習の最適化の側面が重要であることを実証的に示す。実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文参考訳（メタデータ） (2020-04-22T07:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。