論文の概要: When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning
- arxiv url: http://arxiv.org/abs/2502.19158v1
- Date: Wed, 26 Feb 2025 14:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:19.588094
- Title: When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning
- Title(参考訳): パーソナライズと現実:パーソナライズされた選好学習の多面的分析
- Authors: Yijiang River Dong, Tiancheng Hu, Yinhong Liu, Ahmet Üstün, Nigel Collier,
- Abstract要約: ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、一般的に、多様な人間の価値観や少数派視点を見越して、ユーザ間で均質な好みを仮定する。
本稿では,多面的評価フレームワークを提案する。このフレームワークは,性能だけでなく,不公平性,意図しない効果,適応性など,様々なレベルの嗜好のばらつきを計測する。
これらの知見は、より効果的で包括的な選好学習システムの開発を進めるための全体論的評価アプローチの批判的必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 23.557084253364174
- License:
- Abstract: While Reinforcement Learning from Human Feedback (RLHF) is widely used to align Large Language Models (LLMs) with human preferences, it typically assumes homogeneous preferences across users, overlooking diverse human values and minority viewpoints. Although personalized preference learning addresses this by tailoring separate preferences for individual users, the field lacks standardized methods to assess its effectiveness. We present a multi-faceted evaluation framework that measures not only performance but also fairness, unintended effects, and adaptability across varying levels of preference divergence. Through extensive experiments comparing eight personalization methods across three preference datasets, we demonstrate that performance differences between methods could reach 36% when users strongly disagree, and personalization can introduce up to 20% safety misalignment. These findings highlight the critical need for holistic evaluation approaches to advance the development of more effective and inclusive preference learning systems.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデル(LLM)を人間の好みに合わせるために広く使われているが、一般的にはユーザー間で均質な好みを仮定し、多様な人間の価値観や少数派視点を見渡す。
パーソナライズされた嗜好学習は、個々のユーザの好みを個別に調整することでこの問題に対処するが、その効果を評価するための標準化された方法が欠如している。
本稿では,多面的評価フレームワークを提案する。このフレームワークは,性能だけでなく,不公平性,意図しない効果,適応性など,様々なレベルの嗜好のばらつきを計測する。
3つの選好データセット間での8つのパーソナライズ手法の比較実験を通じて、利用者が強く反対すると、メソッド間の性能差が36%に達することが示され、パーソナライズでは最大20%の安全性のミスアライメントがもたらされる。
これらの知見は、より効果的で包括的な選好学習システムの開発を進めるための全体論的評価アプローチの批判的必要性を浮き彫りにしている。
関連論文リスト
- Uncertain Multi-Objective Recommendation via Orthogonal Meta-Learning Enhanced Bayesian Optimization [30.031396809114625]
本稿では,ルールベースの精度駆動システムから行動認識,不確実な多目的RSに至るまで,RSの自律性を5つの異なるレベルに分類する新しい枠組みを提案する。
個人の好みに基づいて複数の目的を動的に識別し、最適化し、より倫理的でインテリジェントなユーザー中心のレコメンデーションを促進するアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T08:10:09Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation [9.452326973655445]
計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
論文 参考訳(メタデータ) (2023-10-22T21:48:51Z) - Everyone Deserves A Reward: Learning Customized Human Preferences [25.28261194665836]
リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
論文 参考訳(メタデータ) (2023-09-06T16:03:59Z) - MetaAge: Meta-Learning Personalized Age Estimators [94.73054410570037]
年齢推定のためのメタAgeというメタ学習手法を提案する。
具体的には、パーソナライズされた推定器のメタラーナを導入し、識別機能を入力として取り込んで、カスタマイズされた推定器のパラメータを出力する。
このようにして、上記の要件なしにメタ知識を学習し、学習したメタ知識をテストセットにシームレスに転送する。
論文 参考訳(メタデータ) (2022-07-12T03:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。