論文の概要: PARM: Pipeline-Adapted Reward Model
- arxiv url: http://arxiv.org/abs/2604.18327v1
- Date: Mon, 20 Apr 2026 14:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.93458
- Title: PARM: Pipeline-Adapted Reward Model
- Title(参考訳): PARM:パイプライン適応リワードモデル
- Authors: Xingyu Fan, Wei Shao, Jiacheng Liu, Linqi Song, Pheng Ann Heng,
- Abstract要約: リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
- 参考スコア(独自算出の注目度): 60.769414637325326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are central to aligning large language models (LLMs) with human preferences, powering RLHF and advanced decoding strategies. While most prior work focuses on single-step generation, real-world applications increasingly adopt multi-stage LLM pipelines, where effective reward guidance remains underexplored. We investigate this through code generation for combinatorial optimization, constructing a pipeline that integrates reward models into both formulation and solution stages. We identify a critical challenge: inconsistency between reward model predictions and actual pipeline execution outcomes. To address this, we propose the Pipeline-Adapted Reward Model (PARM), which leverages pipeline-specific data and direct preference optimization to align rewards with downstream feedback. We instantiate PARM as a two-stage pipeline (formulation -> code generation) and evaluate it on four public optimization benchmarks, measuring execution rate and solving accuracy against baselines and sampling methods. A supplementary cross-domain experiment on GSM8K assesses transferability. Results demonstrate that PARM consistently improves pipeline output quality and stability, providing new insights into reward modeling for multi-stage LLM reasoning.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合、RLHFのパワー、高度な復号戦略の中心である。
これまでのほとんどの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションは、効果的な報酬ガイダンスがまだ探索されていないマルチステージLLMパイプラインを採用するようになっている。
組合せ最適化のためのコード生成を通じてこれを検証し、報奨モデルを定式化と解段階の両方に統合するパイプラインを構築する。
報酬モデル予測と実際のパイプライン実行結果の矛盾。
これを解決するために、パイプライン固有のデータと直接選好最適化を活用して、報酬を下流からのフィードバックに合わせるパイプライン適応リワードモデル(PARM)を提案する。
PARMを2段階のパイプライン(フォーミュレーション ->コード生成)としてインスタンス化し、4つの公開最適化ベンチマークで評価し、実行率を測定し、ベースラインとサンプリング手法に対する精度を計測する。
GSM8K上の追加のクロスドメイン実験は、転送可能性を評価する。
その結果、PARMはパイプラインの出力品質と安定性を継続的に改善し、多段階LLM推論のための報酬モデリングに関する新たな洞察を提供することがわかった。
関連論文リスト
- A Dialectic Pipeline for Improving LLM Robustness [0.0]
ドメイン固有のデータの微調整や、別のテキスト化されたホック検証器の訓練といった手法は、計算資源を必要とする。
本稿では,LLMの一般化能力を保ちながら,自己対話による解の質を向上する弁証的パイプラインを提案する。
提案した弁証法パイプラインは,標準モデル解の有意なマージンによって性能を向上できることがわかった。
論文 参考訳(メタデータ) (2026-01-28T14:42:49Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。
大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-28T08:05:13Z) - In-Context Decision Making for Optimizing Complex AutoML Pipelines [3.2337644762124724]
この作業はCASHフレームワークを拡張して、現代的なMLパイプラインを選択し、適応する。
我々は,PS(Posterior Sampling)を最大k腕バンディット問題に拡張することにより,適応MLパイプラインを効率的に探索し,活用するPS-PFNを提案する。
1つの新しいベンチマークタスクと2つの既存のベンチマークタスクの実験結果から、PS-PFNの他のバンディットおよびオートML戦略と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-19T09:05:16Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。
PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-02T20:29:31Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。