論文の概要: MOSLIM:Align with diverse preferences in prompts through reward classification
- arxiv url: http://arxiv.org/abs/2505.20336v1
- Date: Sat, 24 May 2025 12:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.182673
- Title: MOSLIM:Align with diverse preferences in prompts through reward classification
- Title(参考訳): MOSLIM:報酬分類によるプロンプトにおける多彩な嗜好の相違
- Authors: Yu Zhang, Wanli Jiang, Zhengyu Yang,
- Abstract要約: そこで本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目的をプロンプトすることで柔軟に制御し、SFTフェーズ中に好みのトレーニングを必要としない。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
- 参考スコア(独自算出の注目度): 6.6431471703308915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-objective alignment of Large Language Models (LLMs) is essential for ensuring foundational models conform to diverse human preferences. Current research in this field typically involves either multiple policies or multiple reward models customized for various preferences, or the need to train a preference-specific supervised fine-tuning (SFT) model. In this work, we introduce a novel multi-objective alignment method, MOSLIM, which utilizes a single reward model and policy model to address diverse objectives. MOSLIM provides a flexible way to control these objectives through prompting and does not require preference training during SFT phase, allowing thousands of off-the-shelf models to be directly utilized within this training framework. MOSLIM leverages a multi-head reward model that classifies question-answer pairs instead of scoring them and then optimize policy model with a scalar reward derived from a mapping function that converts classification results from reward model into reward scores. We demonstrate the efficacy of our proposed method across several multi-objective benchmarks and conduct ablation studies on various reward model sizes and policy optimization methods. The MOSLIM method outperforms current multi-objective approaches in most results while requiring significantly fewer GPU computing resources compared with existing policy optimization methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の多目的アライメントは、基礎モデルが多様な人間の嗜好に適合することを保証するために不可欠である。
この分野での現在の研究は、通常、様々な好みのためにカスタマイズされた複数のポリシーまたは複数の報酬モデル、または、好み固有の監督された微調整(SFT)モデルを訓練する必要がある。
本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目標をプロンプトすることで柔軟に制御する手段を提供し、SFTフェーズ中に好みのトレーニングを必要としないため、数千の既製のモデルをこのトレーニングフレームワーク内で直接利用することができる。
MOSLIMは、質問応答ペアをスコアする代わりに分類するマルチヘッド報酬モデルを利用して、報酬モデルからの分類結果を報酬スコアに変換するマッピング関数から派生したスカラー報酬でポリシーモデルを最適化する。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
MOSLIM法は、既存のポリシー最適化法と比較して、GPUコンピューティングリソースを著しく少なくしながら、現在の多目的アプローチよりも優れている。
関連論文リスト
- Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。
そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。
ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文 参考訳(メタデータ) (2025-07-18T16:43:04Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models [18.249363312256722]
AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-08T14:31:06Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。