論文の概要: Pluralistic Off-policy Evaluation and Alignment
- arxiv url: http://arxiv.org/abs/2509.19333v1
- Date: Mon, 15 Sep 2025 01:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.482124
- Title: Pluralistic Off-policy Evaluation and Alignment
- Title(参考訳): 複数の非政治評価とアライメント
- Authors: Chengkai Huang, Junda Wu, Zhouhang Xie, Yu Xia, Rui Wang, Tong Yu, Subrata Mitra, Julian McAuley, Lina Yao,
- Abstract要約: LLMにおけるオフライン多元的選好評価とアライメントのための最初のフレームワークであるPOPEを提案する。
POPEには、人間の嗜好信号から派生した協調ユーティリティコンポーネントと、エントロピーベースのカバレッジ尺度にインスパイアされた多様性コンポーネントを組み合わせた、統一的な報酬機能が含まれている。
実験の結果,POPEは複数の応答生成を効率よく向上し,下流タスクにおけるモデルの汎用能力を維持できることがわかった。
- 参考スコア(独自算出の注目度): 47.35585359400588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalized preference alignment for LLMs with diverse human preferences requires evaluation and alignment methods that capture pluralism. Most existing preference alignment datasets are logged under policies that differ substantially from the evaluated LLMs, and existing off-policy estimators focus solely on overall utility while ignoring preference pluralism. Extending Off-Policy Evaluation (OPE) to pluralistic preference alignment, therefore, remains an open question. Thus, we propose the Pluralistic Off-Policy Evaluation (POPE), the first framework for offline pluralistic preference evaluation and alignment in LLMs. POPE includes a unified reward function that combines (1) a collaborative utility component derived from human preference signals (e.g., upvotes or relevance scores) and (2) a diversity component inspired by entropy-based coverage measures, together reflecting pluralistic alignment. Furthermore, to estimate this reward from logged interactions, we derive decomposable inverse propensity scoring (IPS) estimators that separately evaluate relevance and diversity. Theoretically, we prove that our decomposed IPS estimators establish a lower bound on their variance. With the off-policy evaluated value function, we can directly enable off-policy optimization to further enhance pluralistic alignment. Empirical results demonstrate that POPE efficiently enhances pluralistic response generation and maintains the models' general capabilities on downstream tasks
- Abstract(参考訳): 多様な人間の嗜好を持つLLMのパーソナライズされた選好アライメントには、多元性をキャプチャする評価とアライメント方法が必要である。
既存の選好アライメントデータセットの多くは、評価されたLCMと大きく異なるポリシーの下でログされ、既存のオフポリティクス推定器は、選好多元性を無視しながら、全体的な実用性にのみ焦点をあてている。
したがって、Off-Policy Evaluation (OPE) を多元的選好アライメントに拡張することは、未解決の問題である。
そこで本稿では,LLMにおけるオフライン多元的選好評価とアライメントのための最初のフレームワークであるPOPE(Pluralistic Off-Policy Evaluation)を提案する。
POPEは、(1)人間の嗜好信号(例えば、アップボートや関連スコア)から派生した協調ユーティリティコンポーネントと、(2)エントロピーベースのカバレッジ尺度にインスパイアされた多様性コンポーネントとを、複数のアライメントを反映して組み合わせた統一報酬機能を含む。
さらに、この報酬をログ化された相互作用から推定するために、妥当性と多様性を別々に評価する逆確率スコア(IPS)推定器を導出する。
理論的には、分解されたIPS推定器がそれらの分散の低い境界を確立することが証明される。
オフ・ポリティクス評価値関数を用いることで、オフ・ポリティクス最適化を直接有効化して多重性アライメントをさらに強化することができる。
実証実験の結果、POPEは複数の応答生成を効率よく向上し、下流タスクにおけるモデルの汎用能力を維持できることが示された。
関連論文リスト
- Population-Proportional Preference Learning from Human Feedback: An Axiomatic Approach [6.578074497549894]
評価対象者の嗜好の真の人口分布に比例して、集合的な意見や政策を整合できる新しい嗜好学習フレームワークを開発する。
提案手法は, 対比較データから直接, 評価対象人口分布の可能な集合を推定する。
本研究では,コンドルチェット優勝者の選考により,人口分布表現を円滑にトレードオフするソフトマックス緩和法を提案する。
論文 参考訳(メタデータ) (2025-06-05T22:15:07Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Well-being policy evaluation methodology based on WE pluralism [0.0]
本研究は,客観的指標に基づく多元論から,主観的文脈を強調する概念的多元論へ移行する。
狭い範囲のWEコンセンサスにウェルビーイングと共同ファクトフィニングを組み合わせることにより、政策評価法を定式化する。
論文 参考訳(メタデータ) (2023-05-08T06:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。