論文の概要: One Model for All: Multi-Objective Controllable Language Models
- arxiv url: http://arxiv.org/abs/2604.04497v1
- Date: Mon, 06 Apr 2026 07:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.137099
- Title: One Model for All: Multi-Objective Controllable Language Models
- Title(参考訳): 一つのモデル:多目的可制御言語モデル
- Authors: Qiang He, Yucheng Yang, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy, Setareh Maghsudi,
- Abstract要約: 我々は、優先条件付きポリシーネットワークとして単一の言語モデルをトレーニングするために、MOC(Multi-Objective Control)を導入する。
提案手法では,マルチオブジェクト最適化(MOO)の原則をRLHFに導入し,LLMを優先条件付きポリシネットワークとしてトレーニングする。
大規模な実験は、3つの面において基線よりもMOCの利点を実証している。
- 参考スコア(独自算出の注目度): 65.4626816393381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences is critical for enhancing LLMs' safety, helpfulness, humor, faithfulness, etc. Current reinforcement learning from human feedback (RLHF) mainly focuses on a fixed reward learned from average human ratings, which may weaken the adaptability and controllability of varying preferences. However, creating personalized LLMs requires aligning LLMs with individual human preferences, which is non-trivial due to the scarce data per user and the diversity of user preferences in multi-objective trade-offs, varying from emphasizing empathy in certain contexts to demanding efficiency and precision in others. Can we train one LLM to produce personalized outputs across different user preferences on the Pareto front? In this paper, we introduce Multi-Objective Control (MOC), which trains a single LLM to directly generate responses in the preference-defined regions of the Pareto front. Our approach introduces multi-objective optimization (MOO) principles into RLHF to train an LLM as a preference-conditioned policy network. We improve the computational efficiency of MOC by applying MOO at the policy level, enabling us to fine-tune a 7B-parameter model on a single A6000 GPU. Extensive experiments demonstrate the advantages of MOC over baselines in three aspects: (i) controllability of LLM outputs w.r.t. user preferences on the trade-off among multiple rewards; (ii) quality and diversity of LLM outputs, measured by the hyper-volume of multiple solutions achieved; and (iii) generalization to unseen preferences. These results highlight MOC's potential for real-world applications requiring scalable and customizable LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)を人間の好みで調整することは、LLMの安全性、有用性、ユーモア、忠実性などの向上に不可欠である。
人間のフィードバックからの現在の強化学習(RLHF)は、主に平均的な人間の評価から得られた固定報酬に焦点を当てており、様々な好みの適応性と制御性を弱める可能性がある。
しかし、パーソナライズされたLCMの作成には、ユーザ毎のデータ不足や多目的トレードオフにおけるユーザの嗜好の多様性から、特定のコンテキストにおける共感の強調から、他のコンテキストにおける効率性と精度の要求に至るまで、自明なLCMの調整が必要である。
1つのLCMをトレーニングして、Paretoのフロントでさまざまなユーザの好みに応じてパーソナライズされたアウトプットを生成できますか?
本稿では,パレートフロントの嗜好定義領域で直接応答を生成するために,単一のLLMを訓練する多目的制御(MOC)を導入する。
提案手法では,マルチオブジェクト最適化(MOO)の原則をRLHFに導入し,LLMを優先条件付きポリシネットワークとしてトレーニングする。
ポリシーレベルでMOOを適用し,単一のA6000 GPU上で7Bパラメータモデルを微調整することで,MOCの計算効率を向上させる。
広汎な実験は、3つの点において基線よりもMOCの利点を実証している。
i) LLMの可制御性は,複数の報酬のトレードオフに関するユーザ嗜好を出力する。
(II)複数解の超体積で測定したLCM出力の品質と多様性
(三)見知らぬ好みへの一般化
これらの結果は、スケーラブルでカスタマイズ可能なLLMを必要とする実世界のアプリケーションに対するMOCの可能性を浮き彫りにしている。
関連論文リスト
- Many Preferences, Few Policies: Towards Scalable Language Model Personalization [26.263947748558824]
LLMパーソナライゼーションの聖杯は、各ユーザのための単一のLCMで、そのユーザの好みと完全に一致しています。
ヘテロジニアスユーザ間の代表的振る舞いをキャプチャする,LLMの小さなポートフォリオを選択するための基本的手法を開発した。
これらの保証を検証し、共通のベースラインよりも高い出力多様性を示す実験結果を提供する。
論文 参考訳(メタデータ) (2026-04-05T15:12:07Z) - Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。