論文の概要: Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment
- arxiv url: http://arxiv.org/abs/2503.18991v3
- Date: Thu, 29 May 2025 18:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.538551
- Title: Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment
- Title(参考訳): LLMアライメントのための動的リワードスケーリングを用いた逆強化学習
- Authors: Ruoxi Cheng, Haoxuan Ma, Weixin Wang, Zhiqiang Wang, Xiaoshuang Jia, Simeng Qin, Xiaochun Cao, Yang Liu, Xiaojun Jia,
- Abstract要約: 十分に調整された報酬ベースのパイプラインが最も堅牢なままだ。
textbfDR-IRLは逆強化学習によって動的報酬を調整する。
textbfGRPO-Sは、タスクの難易度に最適化中の報酬をスケールする。
- 参考スコア(独自算出の注目度): 44.74709190788796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust alignment is vital for safely deploying large language models (LLMs). Existing techniques are either reward-based -- training a reward model on preference pairs and optimizing with reinforcement learning (RL) -- or reward-free -- directly fine-tuning on ranked outputs. Recent research shows that well-tuned reward-based pipelines remain the most robust, and single-response demonstrations can outperform pairwise preference data. However, two key challenges remain: (i) imbalanced safety datasets that over-represent common hazards while neglecting long-tail threats; and (ii) static reward models that ignore task difficulty, limiting optimization efficiency and attainable gains. To address these limitations, we propose \textbf{DR-IRL}, which dynamically adjusts rewards through inverse reinforcement learning. We first construct a balanced safety dataset of seven harmful categories using Chain-of-Draft (CoD) template prompts, which reduce token usage and generation time compared to Chain-of-Thought (CoT). We then train category-specific reward models on this dataset via IRL. Finally, to align the LLM, we introduce \textbf{GRPO-S} (Group Relative Policy Optimization--Scaling), a variant of GRPO that scales the reward during optimization to task difficulty -- data-level hardness measured by CLIP similarity and model-level responsiveness measured by reward gaps. Extensive experiments on multiple benchmarks and LLMs demonstrate that DR-IRL outperforms all baselines in safety alignment while maintaining usefulness.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全なデプロイにはロバストアライメントが不可欠だ。
既存のテクニックは報酬に基づく -- 好みのペアで報酬モデルをトレーニングし、強化学習(RL)で最適化する -- あるいは報酬のない -- ランク付けされたアウトプットを直接微調整する。
最近の研究では、十分に調整された報酬ベースのパイプラインが最も堅牢であり、シングルレスポンスのデモンストレーションはペアワイズ選好データより優れていることが示されている。
しかし、2つの重要な課題が残る。
一 長期的脅威を無視しつつ共通の危険を過度に表す不均衡安全データセット
(II)タスクの難易度を無視し、最適化効率を制限し、達成可能なゲインを得る静的報酬モデル。
これらの制約に対処するため,逆強化学習により報酬を動的に調整する「textbf{DR-IRL}」を提案する。
まず、Chain-of-Draft(CoD)テンプレートプロンプトを用いて、7つの有害カテゴリのバランスの取れた安全データセットを構築し、Chain-of-Thought(CoT)と比較してトークンの使用量と生成時間を短縮する。
次に、IRLを介してカテゴリ固有の報酬モデルをトレーニングする。
最後に、LLMを整合させるために、GRPOの変種である‘textbf{GRPO-S}(Group Relative Policy Optimization-Scaling)を導入します。
複数のベンチマークとLCMの大規模な実験により、DR-IRLは安全性を維持しつつ安全アライメントにおいてすべてのベースラインを上回り、有用性を維持していることが示された。
関連論文リスト
- Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-10-12T04:17:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。