論文の概要: Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression
- arxiv url: http://arxiv.org/abs/2508.08509v1
- Date: Mon, 11 Aug 2025 22:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.248178
- Title: Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression
- Title(参考訳): 安定的多元主義:Few-Shot比較回帰による多元的アライメント
- Authors: Jadie Adams, Brian Hu, Emily Veenhuis, David Joy, Bharadwaj Ravichandran, Aaron Bray, Anthony Hoogs, Arslan Basharat,
- Abstract要約: 大規模言語モデル(LLM)は現在、人間のフィードバックから強化学習のような技術を用いて調整されている。
本稿では,個々のユーザの好みに適応可能な,少数ショット比較回帰に基づく評価可能な多元性モデルを提案する。
- 参考スコア(独自算出の注目度): 9.624392327607833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are currently aligned using techniques such as reinforcement learning from human feedback (RLHF). However, these methods use scalar rewards that can only reflect user preferences on average. Pluralistic alignment instead seeks to capture diverse user preferences across a set of attributes, moving beyond just helpfulness and harmlessness. Toward this end, we propose a steerable pluralistic model based on few-shot comparative regression that can adapt to individual user preferences. Our approach leverages in-context learning and reasoning, grounded in a set of fine-grained attributes, to compare response options and make aligned choices. To evaluate our algorithm, we also propose two new steerable pluralistic benchmarks by adapting the Moral Integrity Corpus (MIC) and the HelpSteer2 datasets, demonstrating the applicability of our approach to value-aligned decision-making and reward modeling, respectively. Our few-shot comparative regression approach is interpretable and compatible with different attributes and LLMs, while outperforming multiple baseline and state-of-the-art methods. Our work provides new insights and research directions in pluralistic alignment, enabling a more fair and representative use of LLMs and advancing the state-of-the-art in ethical AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、人間からのフィードバック(RLHF)からの強化学習のような技術を用いて調整されている。
しかし,これらの手法では,平均的なユーザの好みを反映できるスカラー報酬を用いる。
複数方向のアライメントは、単に無害さと無害さを超越して、属性セットの多様なユーザの好みを捉えようとするものだ。
そこで本研究では,ユーザの嗜好に適応可能な,少数ショット比較回帰に基づく評価可能な多元性モデルを提案する。
提案手法は,一連の微粒な属性をベースとした文脈内学習と推論を利用して,応答の選択肢を比較し,整合性のある選択を行う。
提案アルゴリズムの評価には,Moral Integrity Corpus (MIC) とHelpSteer2 のデータセットを適応させることにより,新たな2つの多元性ベンチマークを提案する。
我々の少数ショット比較回帰手法は、異なる属性やLLMと解釈可能で互換性があり、複数のベースラインと最先端の手法より優れている。
我々の研究は、多元的アライメントにおける新たな洞察と研究の方向性を提供し、LLMのより公平で代表的な使用を可能にし、倫理的AIにおける最先端の進歩を可能にします。
関連論文リスト
- Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
二項比較から多種多様な人間の嗜好を抽出するために, DRM(Decomposed Reward Models)を導入する。
DRMは好みをベクトルとして表現し、主成分分析(PCA)を用いて分析する
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。