論文の概要: Enhancing RLHF with Human Gaze Modeling
- arxiv url: http://arxiv.org/abs/2507.09016v1
- Date: Fri, 11 Jul 2025 20:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.076507
- Title: Enhancing RLHF with Human Gaze Modeling
- Title(参考訳): ヒューマン・ゲイズ・モデリングによるRLHFの強化
- Authors: Karim Galliamov, Ivan Titov, Ilya Pershin,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の好みを一致させるが、計算コストが高い。
人間の視線モデルを利用してRLHFを強化する2つのアプローチを探究する:(1)視線認識報酬モデルと(2)視線に基づくトークンレベルのスパース報酬分布。
- 参考スコア(独自算出の注目度): 23.855016560110435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) aligns language models with human preferences but is computationally expensive. We explore two approaches that leverage human gaze modeling to enhance RLHF: (1) gaze-aware reward models and (2) gaze-based distribution of sparse rewards at token level. Our experiments demonstate that gaze-informed RLHF achieves faster convergence while maintaining or slightly improving performance, thus, reducing computational costs during policy optimization. These results show that human gaze provides a valuable and underused signal for policy optimization, pointing to a promising direction for improving RLHF efficiency.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の好みを一致させるが、計算コストが高い。
人間の視線モデルを利用してRLHFを強化する2つのアプローチを探究する:(1)視線認識報酬モデルと(2)視線に基づくトークンレベルのスパース報酬分布。
我々の実験は、視線インフォームドRLHFは、性能を維持またはわずかに改善しながら、より高速な収束を実現し、政策最適化時の計算コストを削減できることを示した。
これらの結果から,ヒトの視線は,RLHF効率を向上させるための有望な方向を指して,政策最適化に有用で未使用の信号を提供することが示された。
関連論文リスト
- Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。