論文の概要: Beyond the Binary: Capturing Diverse Preferences With Reward Regularization
- arxiv url: http://arxiv.org/abs/2412.03822v1
- Date: Thu, 05 Dec 2024 02:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:01.85688
- Title: Beyond the Binary: Capturing Diverse Preferences With Reward Regularization
- Title(参考訳): Beyond the Binary: Reward Regularizationによるさまざまな推論のキャプチャ
- Authors: Vishakh Padmakumar, Chuanyang Jin, Hannah Rose Kirk, He He,
- Abstract要約: この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 15.518838657050173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed via public-facing interfaces to interact with millions of users, each with diverse preferences. Despite this, preference tuning of LLMs predominantly relies on reward models trained using binary judgments where annotators select the preferred choice out of pairs of model outputs. In this work, we argue that this reliance on binary choices does not capture the broader, aggregate preferences of the target user in real-world tasks. We propose a taxonomy that identifies two dimensions of subjectivity where different users disagree on the preferred output-namely, the Plurality of Responses to Prompts, where prompts allow for multiple correct answers, and the Indistinguishability of Responses, where candidate outputs are paraphrases of each other. We show that reward models correlate weakly with user preferences in these cases. As a first step to address this issue, we introduce a simple yet effective method that augments existing binary preference datasets with synthetic preference judgments to estimate potential user disagreement. Incorporating these via a margin term as a form of regularization during model training yields predictions that better align with the aggregate user preferences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数百万のユーザと対話するために、公開インターフェースを介してデプロイされるものが増えています。
それにもかかわらず、LLMの選好チューニングは、主に二項判定を用いて訓練された報酬モデルに依存し、アノテータはモデル出力のペアの中から好みの選択を選択する。
本研究では,この二項選択への依存は,現実のタスクにおいて,対象ユーザのより広範で集約的な嗜好を捉えていないことを論じる。
本稿では,各ユーザが好む出力に異を唱える主観性の2つの次元を識別する分類法,複数の正解を指示するプロンプトに対する応答のPlurality of Responses to Prompts,および候補出力が互いにパラフレーズである応答の不一致性を提案する。
これらの場合、報酬モデルはユーザーの好みと弱い相関関係を示す。
この問題に対処する第一歩として、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
モデルトレーニング中の正規化の一形態として、マージン項を介してこれらを組み込むことで、総合的なユーザの嗜好とよりよく一致した予測が得られる。
関連論文リスト
- HyPerAlign: Hypotheses-driven Personalized Alignment [24.67727411391369]
大規模言語モデル(LLM)のための仮説駆動型パーソナライズ手法(HyPerAlign)を提案する。
検討的なアライメントのために、LLMモデルの有効性は平均して70ドルまで改善される。
著者の帰属について、結果は、最先端の選好微調整アプローチに対して、常に高い勝利率(通常90%ドル)を示す。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - AdaptRec: A Self-Adaptive Framework for Sequential Recommendations with Large Language Models [10.52052172996229]
AdaptRecは、明示的な協調シグナルを組み込むことで、シーケンシャルなレコメンデーションのためにLarge Language Modelsを活用する、自己適応型のフラムワークである。
本研究では,その行動系列を自然言語に変換するユーザコンテキスト適応型レコメンデーション・プロンプトを開発し,これらの情報をレコメンデーション・プロセスに明示的に統合する。
AdaptRecの優れたパフォーマンスを示す実験では、HitRatio@1スコアの7.13%、18.16%、10.41%が現実世界のデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-06T00:30:50Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Pacos: Modeling Users' Interpretable and Context-Dependent Choices in
Preference Reversals [8.041047797530808]
我々は,ユーザの適応重み,イテム間比較,表示位置の3つの要因を同定した。
3つの要因を同時に扱うための統合フレームワークとして,Pacosというコンテキスト依存の嗜好モデルを提案する。
実験の結果,提案手法は,ユーザの選択を予測するための先行作業よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-10T01:49:56Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - From Implicit to Explicit feedback: A deep neural network for modeling
sequential behaviours and long-short term preferences of online users [3.464871689508835]
暗黙的かつ明示的なフィードバックは、有用な推奨のために異なる役割を持つ。
ユーザの嗜好は,長期的利益と短期的利益の組み合わせである,という仮説から導かれる。
論文 参考訳(メタデータ) (2021-07-26T16:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。