論文の概要: From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2506.12446v1
- Date: Sat, 14 Jun 2025 10:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.202173
- Title: From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
- Title(参考訳): 成果からプロセスへ:推論時間アライメントのためのORMからのPRM学習の指導
- Authors: Bin Xie, Bingbing Xu, Yige Yuan, Shengmao Zhu, Huawei Shen,
- Abstract要約: 報酬誘導探索(RGS)にプロセス報酬モデル(PRM)を導入する。
本研究では,SP-PRMを提案する。SP-PRM,SP-PRM,SP-PRM,SP-PRM,SP-PRM,SP-PRM,SP-PRM,SP-PRM,SP-PRM。
対話、要約、推論タスクの実験は、SP-PRMが既存のRGSメソッドを大幅に強化し、全タスクでGPT-4の評価スコアが3.6%-10.3%向上したことを示している。
- 参考スコア(独自算出の注目度): 23.463402040567615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time alignment methods have gained significant attention for their efficiency and effectiveness in aligning large language models (LLMs) with human preferences. However, existing dominant approaches using reward-guided search (RGS) primarily rely on outcome reward models (ORMs), which suffer from a critical granularity mismatch: ORMs are designed to provide outcome rewards for complete responses, while RGS methods rely on process rewards to guide the policy, leading to inconsistent scoring and suboptimal alignment. To address this challenge, we introduce process reward models (PRMs) into RGS and argue that an ideal PRM should satisfy two objectives: Score Consistency, ensuring coherent evaluation across partial and complete responses, and Preference Consistency, aligning partial sequence assessments with human preferences. Based on these, we propose SP-PRM, a novel dual-consistency framework integrating score consistency-based and preference consistency-based partial evaluation modules without relying on human annotation. Extensive experiments on dialogue, summarization, and reasoning tasks demonstrate that SP-PRM substantially enhances existing RGS methods, achieving a 3.6%-10.3% improvement in GPT-4 evaluation scores across all tasks.
- Abstract(参考訳): 推測時間アライメント手法は,大規模言語モデル(LLM)と人間の嗜好の整合において,その効率性と有効性に大きな注目を集めている。
しかし、報酬誘導探索(RGS)を用いた既存の支配的なアプローチは、主に結果報酬モデル(ORM)に依存しており、これは重大な粒度のミスマッチに苦しむ: ORMは完全な応答に対して結果報酬を提供するように設計されている。
この課題に対処するために、プロセス報酬モデル(PRM)をRGSに導入し、理想的なPRMは、スコア一貫性、部分応答と完全応答のコヒーレントな評価、優先度一貫性、部分シーケンスアセスメントと人間の嗜好の整合の2つの目的を満たすべきであると論じる。
そこで我々は,SP-PRMを提案する。SP-PRMは,人間のアノテーションを頼らずに,スコア一貫性と優先一貫性に基づく部分評価モジュールを統合した,新しい二重一貫性フレームワークである。
対話、要約、推論タスクに関する大規模な実験は、SP-PRMが既存のRGS手法を大幅に強化し、全タスクにわたってGPT-4の評価スコアが3.6%-10.3%向上したことを示している。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification [27.594868471770475]
推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力である。
プロセスレベルの報酬モデル(PRM)は、強化学習とデータ生産を容易にする段階的な報酬を提供するために提案された。
PRMの既存のベンチマークはテキストベースで、エラー検出に重点を置いており、推論検索のような他のシナリオを無視している。
MPBenchは、様々なシナリオにおけるPRMの有効性を体系的に評価するために設計された、総合的でマルチタスクのマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-03-16T13:50:38Z) - UMB@PerAnsSumm 2025: Enhancing Perspective-Aware Summarization with Prompt Optimization and Supervised Fine-Tuning [8.095763327154335]
本稿では,パーアンサム共有タスク(PerAnsSumm Shared Task)について,パースペクティブ・スパン識別とパースペクティブ・アウェア・サマリゼーションを包含するアプローチを提案する。
スパン識別には、平均化によって3つのトランスフォーマーモデルを統合するアンサンブル学習を採用し、個々のモデルの強みを利用する。
要約のために、キーフレーズを組み込んだ一連のCoT(Chain-of-Thought)を設計し、要約生成を管理可能なステップに導く。
論文 参考訳(メタデータ) (2025-03-14T06:29:51Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses [11.809647985607935]
提案手法は,説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別することに焦点を当てたシーケンスラベリング手法を提案する。
GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。
以上の結果から,(1)M-IoUスコアはシーケンス品質評価における人的判断と効果的に相関し,(2)GPT-3.5上での2ショットプロンプトは,努力に基づく評価と成果に基づく評価の認識において良好な性能を示し,(3)M-IoUスコアの0.6が最適微調整GPT-3.5モデルであった。
論文 参考訳(メタデータ) (2024-05-01T02:59:10Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。