Fugu-MT 論文翻訳(概要): Preference-free Alignment Learning with Regularized Relevance Reward

論文の概要: Preference-free Alignment Learning with Regularized Relevance Reward

arxiv url: http://arxiv.org/abs/2402.03469v1
Date: Fri, 2 Feb 2024 11:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 18:13:24.642471
Title: Preference-free Alignment Learning with Regularized Relevance Reward
Title（参考訳）: 正規化関連報酬を用いた選好フリーアライメント学習
Authors: Sungdong Kim and Minjoon Seo
Abstract要約: 人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を整合させる鍵と考えられてきた。一般の信念とは対照的に、私たちの予備研究では、人間の嗜好データセットに基づいてトレーニングされた報酬モデルが、長いオフトピーの反応により高いスコアを与える傾向があることが明らかになった。我々は、アライメントの鍵となる目的として「関連性」を利用した嗜好のないアプローチを探求する。
参考スコア（独自算出の注目度）: 46.70226389831863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from human preference has been considered key to aligning Large Language Models (LLMs) with human values. However, contrary to popular belief, our preliminary study reveals that reward models trained on human preference datasets tend to give higher scores to long off-topic responses than short on-topic ones. Motivated by this observation, we explore a preference-free approach utilizing `relevance' as a key objective for alignment. On our first attempt, we find that the relevance score obtained by a retriever alone is vulnerable to reward hacking, i.e., overoptimizing to undesired shortcuts, when we utilize the score as a reward for reinforcement learning. To mitigate it, we integrate effective inductive biases into the vanilla relevance to regularize each other, resulting in a mixture of reward functions: Regularized Relevance Reward ($R^3$). $R^3$ significantly improves performance on preference benchmarks by providing a robust reward signal. Notably, $R^3$ does not require any human preference datasets (i.e., preference-free), outperforming open-source reward models in improving human preference. Our analysis demonstrates that $R^3$ has advantages in elevating human preference while minimizing its side effects. Finally, we show the generalizability of $R^3$, consistently improving instruction-tuned models in various backbones and sizes without additional dataset cost. Our code is available at https://github.com/naver-ai/RRR.
Abstract（参考訳）: 人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を一致させる鍵と考えられている。しかし,人間好みデータセットで学習した報酬モデルでは,短所の話題外回答に対するスコアが短所よりも高い傾向がみられた。この観察に動機づけられて,'関係' をアライメントの重要な目的とする,選好フリーなアプローチを探求する。最初の試みでは、強化学習の報奨としてスコアを利用すると、レトリバーだけで得られる関連スコアが報酬ハッキング、すなわち望ましくないショートカットへの過剰最適化に対して脆弱であることが分かりました。これを緩和するために、バニラ関係に効果的な帰納バイアスを組み込んで互いに正則化し、報奨関数を混合する: 正則化関連リワード(R^3$)。 r^3$は、ロバストな報酬信号を提供することで、プリファレンスベンチマークのパフォーマンスを大幅に改善する。特に、$R^3$は、人間の嗜好を改善するために、人間の嗜好データセット(例えば、嗜好のない)を必要としない。 r^3$は人の好みを高めつつ副作用を最小限に抑える効果がある。最後に、r^3$の汎用性を示し、追加のデータセットコストなしで様々なバックボーンやサイズでの命令調整モデルに一貫して改善する。私たちのコードはhttps://github.com/naver-ai/rrrで利用可能です。

関連論文リスト

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文参考訳（メタデータ） (2025-08-07T17:53:56Z)
Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [8.143110220871614]
我々は、構造化されたチェックリストスタイルのルーリックを解釈可能な報酬信号として利用するフレームワークであるRaRを紹介する。ごみを構造化された報酬信号として扱うことにより、RaRはより小規模の審査モデルで人間の嗜好に適合できることを示す。
論文参考訳（メタデータ） (2025-07-23T17:57:55Z)
Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文参考訳（メタデータ） (2025-05-20T17:58:03Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文参考訳（メタデータ） (2024-06-18T17:58:28Z)
Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。 RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-30T09:57:21Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。代わりに、自然言語インターフェースを使って報酬を安く設計できますか? 本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文参考訳（メタデータ） (2023-02-27T22:09:35Z)
Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文参考訳（メタデータ） (2022-10-19T17:56:10Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。