論文の概要: ARF-RLHF: Adaptive Reward-Following for RLHF through Emotion-Driven Self-Supervision and Trace-Biased Dynamic Optimization
- arxiv url: http://arxiv.org/abs/2507.03069v1
- Date: Thu, 03 Jul 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.575059
- Title: ARF-RLHF: Adaptive Reward-Following for RLHF through Emotion-Driven Self-Supervision and Trace-Biased Dynamic Optimization
- Title(参考訳): ARF-RLHF:感情駆動型自己スーパービジョンとトレースバイアス動的最適化によるRLHFの適応逆追従
- Authors: YuXuan Zhang,
- Abstract要約: 本稿では,自由形式のユーザフィードバックを連続的な嗜好スコアに変換するための適応リワードフォロー(ARF)を提案する。
Dynamic Adapter Preference Trackerは、ユーザの好みをリアルタイムで継続的にモデル化する。
ARFはPPOが3.3%、DPOが7.6%向上している。
- 参考スコア(独自算出の注目度): 9.090588805667263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Reinforcement Learning from Human Feedback (RLHF) and autoregressive transformers, state-of-the-art models such as GPT-4.0, DeepSeek R1, and Llama 3.3 increasingly emphasize answer depth and personalization. However, most existing RLHF approaches (e.g., PPO, DPO) still rely on a binary-preference (BT) paradigm, which, while reducing annotation costs, still requires substantial human effort and captures only group-level tendencies rather than individual preferences. To overcome these limitations, we propose Adaptive Reward-Following (ARF), a self-assessment framework that leverages a high-precision emotion analyzer achieving over 70% accuracy on GoEmotions, Sentiment140, and DailyDialog to convert free-form user feedback into continuous preference scores. We further enrich and debias these signals through lightweight data augmentations, including synonym replacement, random trace truncation, and score bias annotation algorithm. A Dynamic Adapter Preference Tracker continuously models evolving user tastes in real time, enabling our novel Trace Bias (TB) fine-tuning algorithm to optimize directly on these tracked rewards instead of coarse binary labels. Experiments on Qwen-2/2.5, Gemma-2, and Llama-3.2 across four preference domains demonstrate that ARF achieves an improvement of 3.3% over PPO and 7.6% over DPO. Moreover, TB preserves theoretical alignment with PPO and DPO objectives. Overall, ARF presents a scalable, personalized, and cost-effective approach to RLHF LLMs through autonomous reward modeling.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)と自動回帰変換器(autoregressive transformer)の急速な進歩により、GPT-4.0、DeepSeek R1、Llama 3.3といった最先端のモデルは、回答の深さとパーソナライゼーションを強調している。
しかし、既存のほとんどのRLHFアプローチ(例えば、PPO、DPO)は、まだバイナリ・リファレンス(BT)パラダイムに依存している。
これらの制限を克服するために,GoEmotions,Sentiment140,DailyDialogで70%以上の精度を達成した高精度感情分析システムを活用した自己評価フレームワークであるAdaptive Reward-Following (ARF)を提案する。
我々は、これらの信号を、同義語置換、ランダムトレーストランケーション、スコアバイアスアノテーションアルゴリズムなど、軽量なデータ拡張を通じてさらに豊かにし、デビア化する。
Dynamic Adapter Preference Trackerは、ユーザの嗜好の進化をリアルタイムで継続的にモデル化し、新しいTrace Bias(TB)ファインチューニングアルゴリズムにより、粗いバイナリラベルではなく、これらのトラックされた報酬を直接最適化できる。
Qwen-2/2.5、Gemma-2、Llama-3.2を4つの選好領域で実験したところ、ARFはPPOよりも3.3%、DPOより7.6%改善した。
さらに、TBはPPOとDPOの目的との理論的整合を保っている。
全体として、ARFは自律的な報酬モデリングを通じて、RLHF LLMに対してスケーラブルでパーソナライズされ、費用対効果の高いアプローチを提示している。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。