論文の概要: ARF-RLHF: Adaptive Reward-Following for RLHF through Emotion-Driven Self-Supervision and Trace-Biased Dynamic Optimization
- arxiv url: http://arxiv.org/abs/2507.03069v1
- Date: Thu, 03 Jul 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.575059
- Title: ARF-RLHF: Adaptive Reward-Following for RLHF through Emotion-Driven Self-Supervision and Trace-Biased Dynamic Optimization
- Title(参考訳): ARF-RLHF:感情駆動型自己スーパービジョンとトレースバイアス動的最適化によるRLHFの適応逆追従
- Authors: YuXuan Zhang,
- Abstract要約: 本稿では,自由形式のユーザフィードバックを連続的な嗜好スコアに変換するための適応リワードフォロー(ARF)を提案する。
Dynamic Adapter Preference Trackerは、ユーザの好みをリアルタイムで継続的にモデル化する。
ARFはPPOが3.3%、DPOが7.6%向上している。
- 参考スコア(独自算出の注目度): 9.090588805667263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Reinforcement Learning from Human Feedback (RLHF) and autoregressive transformers, state-of-the-art models such as GPT-4.0, DeepSeek R1, and Llama 3.3 increasingly emphasize answer depth and personalization. However, most existing RLHF approaches (e.g., PPO, DPO) still rely on a binary-preference (BT) paradigm, which, while reducing annotation costs, still requires substantial human effort and captures only group-level tendencies rather than individual preferences. To overcome these limitations, we propose Adaptive Reward-Following (ARF), a self-assessment framework that leverages a high-precision emotion analyzer achieving over 70% accuracy on GoEmotions, Sentiment140, and DailyDialog to convert free-form user feedback into continuous preference scores. We further enrich and debias these signals through lightweight data augmentations, including synonym replacement, random trace truncation, and score bias annotation algorithm. A Dynamic Adapter Preference Tracker continuously models evolving user tastes in real time, enabling our novel Trace Bias (TB) fine-tuning algorithm to optimize directly on these tracked rewards instead of coarse binary labels. Experiments on Qwen-2/2.5, Gemma-2, and Llama-3.2 across four preference domains demonstrate that ARF achieves an improvement of 3.3% over PPO and 7.6% over DPO. Moreover, TB preserves theoretical alignment with PPO and DPO objectives. Overall, ARF presents a scalable, personalized, and cost-effective approach to RLHF LLMs through autonomous reward modeling.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)と自動回帰変換器(autoregressive transformer)の急速な進歩により、GPT-4.0、DeepSeek R1、Llama 3.3といった最先端のモデルは、回答の深さとパーソナライゼーションを強調している。
しかし、既存のほとんどのRLHFアプローチ(例えば、PPO、DPO)は、まだバイナリ・リファレンス(BT)パラダイムに依存している。
これらの制限を克服するために,GoEmotions,Sentiment140,DailyDialogで70%以上の精度を達成した高精度感情分析システムを活用した自己評価フレームワークであるAdaptive Reward-Following (ARF)を提案する。
我々は、これらの信号を、同義語置換、ランダムトレーストランケーション、スコアバイアスアノテーションアルゴリズムなど、軽量なデータ拡張を通じてさらに豊かにし、デビア化する。
Dynamic Adapter Preference Trackerは、ユーザの嗜好の進化をリアルタイムで継続的にモデル化し、新しいTrace Bias(TB)ファインチューニングアルゴリズムにより、粗いバイナリラベルではなく、これらのトラックされた報酬を直接最適化できる。
Qwen-2/2.5、Gemma-2、Llama-3.2を4つの選好領域で実験したところ、ARFはPPOよりも3.3%、DPOより7.6%改善した。
さらに、TBはPPOとDPOの目的との理論的整合を保っている。
全体として、ARFは自律的な報酬モデリングを通じて、RLHF LLMに対してスケーラブルでパーソナライズされ、費用対効果の高いアプローチを提示している。
関連論文リスト
- Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。
我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文 参考訳(メタデータ) (2025-02-20T07:53:11Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。