論文の概要: Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values
- arxiv url: http://arxiv.org/abs/2510.20187v1
- Date: Thu, 23 Oct 2025 04:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.31839
- Title: Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values
- Title(参考訳): すべての質問には独自の価値がある: 明示的な人的価値による強化学習
- Authors: Dian Yu, Yulai Zhao, Kishan Panaganti, Linfeng Song, Haitao Mi, Dong Yu,
- Abstract要約: RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 53.72318444646282
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Reinforcement Learning with Explicit Human Values (RLEV), a method that aligns Large Language Model (LLM) optimization directly with quantifiable human value signals. While Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains models in objective domains using binary correctness rewards, it overlooks that not all tasks are equally significant. RLEV extends this framework by incorporating human-defined value signals directly into the reward function. Using exam-style data with explicit ground-truth value labels, RLEV consistently outperforms correctness-only baselines across multiple RL algorithms and model scales. Crucially, RLEV policies not only improve value-weighted accuracy but also learn a value-sensitive termination policy: concise for low-value prompts, thorough for high-value ones. We demonstrate this behavior stems from value-weighted gradient amplification on end-of-sequence tokens. Ablation studies confirm the gain is causally linked to value alignment. RLEV remains robust under noisy value signals, such as difficulty-based labels, demonstrating that optimizing for an explicit utility function offers a practical path to aligning LLMs with human priorities.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) の最適化を定量的な人的価値信号と直接整合させる手法であるReinforcement Learning with Explicit Human Values (RLEV)を提案する。
Reinforcement Learning with Verifiable Rewards (RLVR)は、バイナリの正当性報酬を使って、目的のドメインのモデルを効果的に訓練するが、すべてのタスクが等しく重要であるとは考えていない。
RLEVはこのフレームワークを拡張し、人間定義値信号を直接報酬関数に組み込む。
複数のRLアルゴリズムとモデルスケールで、RLEVは一貫して正当性のみのベースラインを上回っている。
重要なことは、RLEVポリシーは、値重み付けの精度を向上するだけでなく、低値プロンプトの簡潔さ、高値のプロンプトの徹底といった、価値に敏感な終了ポリシーも学習する。
この挙動は、エンディングオブシーケンストークンの値重み付け勾配増幅に起因している。
アブレーション研究では、利得が価値アライメントに因果関係があることが確認されている。
RLEVは、難易度に基づくラベルのようなノイズの多い値信号の下でも頑健であり、明示的なユーティリティ関数の最適化は、LLMを人間の優先順位に合わせるための実践的な経路を提供することを示した。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data? [34.18909976476456]
優先応答で得られる識別信号が初期トークンに集中していることが示される。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-21T17:59:02Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。