論文の概要: MOSLIM:Align with diverse preferences in prompts through reward classification
- arxiv url: http://arxiv.org/abs/2505.20336v1
- Date: Sat, 24 May 2025 12:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.182673
- Title: MOSLIM:Align with diverse preferences in prompts through reward classification
- Title(参考訳): MOSLIM:報酬分類によるプロンプトにおける多彩な嗜好の相違
- Authors: Yu Zhang, Wanli Jiang, Zhengyu Yang,
- Abstract要約: そこで本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目的をプロンプトすることで柔軟に制御し、SFTフェーズ中に好みのトレーニングを必要としない。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
- 参考スコア(独自算出の注目度): 6.6431471703308915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-objective alignment of Large Language Models (LLMs) is essential for ensuring foundational models conform to diverse human preferences. Current research in this field typically involves either multiple policies or multiple reward models customized for various preferences, or the need to train a preference-specific supervised fine-tuning (SFT) model. In this work, we introduce a novel multi-objective alignment method, MOSLIM, which utilizes a single reward model and policy model to address diverse objectives. MOSLIM provides a flexible way to control these objectives through prompting and does not require preference training during SFT phase, allowing thousands of off-the-shelf models to be directly utilized within this training framework. MOSLIM leverages a multi-head reward model that classifies question-answer pairs instead of scoring them and then optimize policy model with a scalar reward derived from a mapping function that converts classification results from reward model into reward scores. We demonstrate the efficacy of our proposed method across several multi-objective benchmarks and conduct ablation studies on various reward model sizes and policy optimization methods. The MOSLIM method outperforms current multi-objective approaches in most results while requiring significantly fewer GPU computing resources compared with existing policy optimization methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の多目的アライメントは、基礎モデルが多様な人間の嗜好に適合することを保証するために不可欠である。
この分野での現在の研究は、通常、様々な好みのためにカスタマイズされた複数のポリシーまたは複数の報酬モデル、または、好み固有の監督された微調整(SFT)モデルを訓練する必要がある。
本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目標をプロンプトすることで柔軟に制御する手段を提供し、SFTフェーズ中に好みのトレーニングを必要としないため、数千の既製のモデルをこのトレーニングフレームワーク内で直接利用することができる。
MOSLIMは、質問応答ペアをスコアする代わりに分類するマルチヘッド報酬モデルを利用して、報酬モデルからの分類結果を報酬スコアに変換するマッピング関数から派生したスカラー報酬でポリシーモデルを最適化する。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
MOSLIM法は、既存のポリシー最適化法と比較して、GPUコンピューティングリソースを著しく少なくしながら、現在の多目的アプローチよりも優れている。
関連論文リスト
- Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。