論文の概要: Risk-aware Direct Preference Optimization under Nested Risk Measure
- arxiv url: http://arxiv.org/abs/2505.20359v2
- Date: Thu, 29 May 2025 13:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.190541
- Title: Risk-aware Direct Preference Optimization under Nested Risk Measure
- Title(参考訳): Nested Risk Measure によるリスク認識型直接選好最適化
- Authors: Lijun Zhang, Lin Li, Yajie Qi, Huizhong Song, Yaodong Yang, Jun Wang, Wei Wei,
- Abstract要約: Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 23.336246526648374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When fine-tuning pre-trained Large Language Models (LLMs) to align with human values and intentions, maximizing the estimated reward can lead to superior performance, but it also introduces potential risks due to deviations from the reference model's intended behavior. Most existing methods typically introduce KL divergence to constrain deviations between the trained model and the reference model; however, this may not be sufficient in certain applications that require tight risk control. In this paper, we introduce Risk-aware Direct Preference Optimization (Ra-DPO), a novel approach that incorporates risk-awareness by employing a class of nested risk measures. This approach formulates a constrained risk-aware advantage function maximization problem and then converts the Bradley-Terry model into a token-level representation. The objective function maximizes the likelihood of the policy while suppressing the deviation between a trained model and the reference model using a sequential risk ratio, thereby enhancing the model's risk-awareness. Experimental results across three open-source datasets: IMDb Dataset, Anthropic HH Dataset, and AlpacaEval, demonstrate the proposed method's superior performance in balancing alignment performance and model drift. Our code is opensourced at https://github.com/zlj123-max/Ra-DPO.
- Abstract(参考訳): 人的価値や意図に合わせるように訓練済みの大規模言語モデル(LLM)を微調整する場合、推定報酬の最大化は優れたパフォーマンスをもたらすが、参照モデルの意図した振る舞いからの逸脱による潜在的なリスクも引き起こす。
既存のほとんどの手法では、訓練されたモデルと参照モデルの間の偏差を制限するためにKLの偏差を導入するが、これは厳密なリスク制御を必要とする特定のアプリケーションでは不十分である。
本稿では,リスク認識型直接選好最適化(Ra-DPO)について紹介する。
このアプローチは制約付きリスク対応の有利関数最大化問題を定式化し、その後ブラッドリー・テリーモデルをトークンレベル表現に変換する。
目的関数は、逐次リスク比を用いて、訓練されたモデルと参照モデルとのずれを抑えつつ、ポリシーの可能性を最大化し、モデルのリスク認識性を高める。
IMDb Dataset, Anthropic HH Dataset, AlpacaEvalの3つのオープンソースデータセットに対する実験結果から,アライメント性能とモデルドリフトのバランスをとる上で,提案手法が優れていることを示す。
私たちのコードはhttps://github.com/zlj123-max/Ra-DPOで公開されています。
関連論文リスト
- Mitigating optimistic bias in entropic risk estimation and optimization with an application to insurance [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを説明するために広く使用されている。
経験的エントロピーリスク推定器のバイアスを軽減するために, 強く一貫したブートストラップ手法を提案する。
当社の手法は、住宅所有者に対してより高い(そしてより正確な)プレミアムを示唆している。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Optimizing the Performative Risk under Weak Convexity Assumptions [0.0]
性能予測において、予測モデルは将来のデータを生成する分布に影響を与える。
これまでの研究では、損失に関する一般的な条件とモデルパラメータから分布へのマッピングが特定されており、凸性はパフォーマンスリスクを意味する。
本稿では,反復最適化法における性能最小化リスク問題の回避性を犠牲にすることなく,これらの仮定を緩和する。
論文 参考訳(メタデータ) (2022-09-02T01:07:09Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。