論文の概要: Small Reward Models via Backward Inference
- arxiv url: http://arxiv.org/abs/2602.13551v1
- Date: Sat, 14 Feb 2026 01:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.142259
- Title: Small Reward Models via Backward Inference
- Title(参考訳): 後方推論による小さな後退モデル
- Authors: Yike Wang, Faeze Brahman, Shangbin Feng, Teng Xiao, Hannaneh Hajishirzi, Yulia Tsvetkov,
- Abstract要約: FLIP (FLipped Inference for Prompt Reconstruction) は、参照フリーでルーリックフリーな報酬モデリング手法である。
報酬モデリングを後方推論によって再構成し、与えられた応答を最も確実に生成する命令を推論する。
- 参考スコア(独自算出の注目度): 100.59075794599768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) play a central role throughout the language model (LM) pipeline, particularly in non-verifiable domains. However, the dominant LLM-as-a-Judge paradigm relies on the strong reasoning capabilities of large models, while alternative approaches require reference responses or explicit rubrics, limiting flexibility and broader accessibility. In this work, we propose FLIP (FLipped Inference for Prompt reconstruction), a reference-free and rubric-free reward modeling approach that reformulates reward modeling through backward inference: inferring the instruction that would most plausibly produce a given response. The similarity between the inferred and the original instructions is then used as the reward signal. Evaluations across four domains using 13 small language models show that FLIP outperforms LLM-as-a-Judge baselines by an average of 79.6%. Moreover, FLIP substantially improves downstream performance in extrinsic evaluations under test-time scaling via parallel sampling and GRPO training. We further find that FLIP is particularly effective for longer outputs and robust to common forms of reward hacking. By explicitly exploiting the validation-generation gap, FLIP enables reliable reward modeling in downscaled regimes where judgment methods fail. Code available at https://github.com/yikee/FLIP.
- Abstract(参考訳): リワードモデル(RM)は言語モデル(LM)パイプライン全体、特に検証不可能な領域において中心的な役割を果たす。
しかし、支配的なLLM-as-a-Judgeパラダイムは、大きなモデルの強い推論能力に依存し、代替アプローチは参照応答や明示的なルーリックを必要とし、柔軟性とより広範なアクセシビリティを制限している。
本研究では,提案するFLIP(FLipped Inference for Prompt Restruction, FLIP)を提案する。
次に、推定された命令と元の命令との類似性を報奨信号として使用する。
13の小さな言語モデルを用いた4つのドメインに対する評価では、FLIPは平均79.6%のLLM-as-a-Judgeベースラインを上回っている。
さらに、FLIPは、並列サンプリングとGRPOトレーニングによるテスト時間スケーリングによる外部評価において、ダウンストリーム性能を大幅に改善する。
さらに、FLIPはより長いアウトプットに対して特に有効であり、一般的な報酬ハックに対して堅牢であることもわかりました。
検証と生成のギャップを明示的に活用することにより、FLIPは判断方法が失敗するダウンスケールのシステムにおいて、信頼できる報酬モデリングを可能にする。
コードはhttps://github.com/yikee/FLIP.comで公開されている。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry [41.26991813225211]
曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
本稿では,セマンティック・キャパシティ非対称性仮説を提案する。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
論文 参考訳(メタデータ) (2026-01-30T05:34:24Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance [101.30279597148973]
プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。
RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-29T23:59:16Z) - Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries [3.930598942647121]
本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:11:28Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。