論文の概要: Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2603.12595v1
- Date: Fri, 13 Mar 2026 02:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.862106
- Title: Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback
- Title(参考訳): 人フィードバックによる個人化強化学習のためのスワップ誘導型選好学習
- Authors: Gihoon Kim, Euntai Kim,
- Abstract要約: 変分選好学習(VPL)は、ユーザ固有の潜伏変数を導入することで、この問題に対処しようとしている。
スパースな選好データの下では、VPLは潜伏変数を無視し、シングルリワードモデルに戻す。
この制限を克服するために,Swap-guided Preference Learning (SPL)を提案する。
- 参考スコア(独自算出の注目度): 16.26441026659651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a widely used approach to align large-scale AI systems with human values. However, RLHF typically assumes a single, universal reward, which overlooks diverse preferences and limits personalization. Variational Preference Learning (VPL) seeks to address this by introducing user-specific latent variables. Despite its promise, we found that VPL suffers from posterior collapse. While this phenomenon is well known in VAEs, it has not previously been identified in preference learning frameworks. Under sparse preference data and with overly expressive decoders, VPL may cause latent variables to be ignored, reverting to a single-reward model. To overcome this limitation, we propose Swap-guided Preference Learning (SPL). The key idea is to construct fictitious swap annotators and use the mirroring property of their preferences to guide the encoder. SPL introduces three components: (1) swap-guided base regularization, (2) Preferential Inverse Autoregressive Flow (P-IAF), and (3) adaptive latent conditioning. Experiments show that SPL mitigates collapse, enriches user-specific latents, and improves preference prediction. Our code and data are available at https://github.com/cobang0111/SPL
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模なAIシステムと人間の価値を結びつけるために広く使われているアプローチである。
しかし、RLHFは一般的に単一の普遍的な報酬を仮定し、様々な好みを見落とし、パーソナライゼーションを制限する。
変分選好学習(VPL)は、ユーザ固有の潜伏変数を導入することで、この問題に対処しようとしている。
その約束にもかかわらず、VPLは後部崩壊に苦しむことがわかった。
この現象はVAEでよく知られているが、これまでは選好学習のフレームワークでは特定されていなかった。
スパース選好データと過度に表現的なデコーダにより、VPLは潜伏変数を無視し、シングルリワードモデルに戻す。
この制限を克服するため,Swarp-guided Preference Learning (SPL)を提案する。
キーとなるアイデアは、架空のスワップアノテータを構築し、その好みのミラーリングプロパティを使用してエンコーダをガイドすることである。
SPLは,(1)スワップ誘導ベース正規化,(2)優先逆自己回帰流(P-IAF),(3)適応潜時条件付の3成分を導入している。
実験により、SPLは崩壊を緩和し、ユーザ固有の潜伏者を豊かにし、好みの予測を改善することが示された。
私たちのコードとデータはhttps://github.com/cobang0111/SPLで利用可能です。
関連論文リスト
- Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。