論文の概要: Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes
- arxiv url: http://arxiv.org/abs/2412.13998v1
- Date: Wed, 18 Dec 2024 16:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:51.459758
- Title: Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes
- Title(参考訳): 数発のステアライメント:ニューラルプロセスによるリワードとLCMポリシーの適応
- Authors: Katarzyna Kobalczyk, Claudio Fanconi, Hao Sun, Mihaela van der Schaar,
- Abstract要約: 大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.544186914115045
- License:
- Abstract: As large language models (LLMs) become increasingly embedded in everyday applications, ensuring their alignment with the diverse preferences of individual users has become a critical challenge. Currently deployed approaches typically assume homogeneous user objectives and rely on single-objective fine-tuning. However, human preferences are inherently heterogeneous, influenced by various unobservable factors, leading to conflicting signals in preference data. Existing solutions addressing this diversity often require costly datasets labelled for specific objectives and involve training multiple reward models or LLM policies, which is computationally expensive and impractical. In this work, we present a novel framework for few-shot steerable alignment, where users' underlying preferences are inferred from a small sample of their choices. To achieve this, we extend the Bradley-Terry-Luce model to handle heterogeneous preferences with unobserved variability factors and propose its practical implementation for reward modelling and LLM fine-tuning. Thanks to our proposed approach of functional parameter-space conditioning, LLMs trained with our framework can be adapted to individual preferences at inference time, generating outputs over a continuum of behavioural modes. We empirically validate the effectiveness of methods, demonstrating their ability to capture and align with diverse human preferences in a data-efficient manner. Our code is made available at: https://github.com/kasia-kobalczyk/few-shot-steerable-alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)が日々のアプリケーションに組み込まれるようになるにつれ、個々のユーザのさまざまな好みと整合性を確保することが重要な課題となっている。
現在、デプロイされたアプローチは、通常、均質なユーザー目標を仮定し、単一目的の微調整に依存している。
しかし、人間の嗜好は本質的に異質であり、様々な観測不可能な要因の影響を受け、嗜好データに矛盾する信号をもたらす。
この多様性に対処する既存のソリューションは、特定の目的のためにラベル付けされた高価なデータセットを必要とし、計算的に高価で実用的でない複数の報酬モデルまたはLLMポリシーのトレーニングを含むことが多い。
そこで本研究では,ユーザの選択した少数のサンプルから,ユーザの好みを推測する,数発のステアライメントのための新しいフレームワークを提案する。
そこで我々はBradley-Terry-Luceモデルを拡張し、不均一な選好を観測できない変数で処理し、報酬モデリングとLLM微調整のための実践的実装を提案する。
機能的パラメータ空間条件付けのアプローチにより、我々のフレームワークで訓練されたLLMは、推論時に個別の好みに適応し、動作モードの連続体上で出力を生成することができる。
提案手法の有効性を実証的に検証し,多種多様な人間の嗜好をデータ効率で捕捉・整合する能力を実証した。
私たちのコードは、https://github.com/kasia-kobalczyk/few-shot-steerable-alignmentで利用可能です。
関連論文リスト
- Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Sample-Efficient Personalization: Modeling User Parameters as Low Rank
Plus Sparse Components [30.32486162748558]
個人ユーザ/ドメイン/エンタプライズに対する機械学習(ML)予測のパーソナライズは,実践的なレコメンデーションシステムにおいて重要である。
ネットワーク重みを低ランクおよびスパース成分の和としてモデル化するメタラーニング方式を提案する。
AMHT-LRSは、ほぼ最適なサンプル複雑さで効率よく問題を解く。
論文 参考訳(メタデータ) (2022-10-07T12:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。