論文の概要: Pareto Multi-Objective Alignment for Language Models
- arxiv url: http://arxiv.org/abs/2508.07768v1
- Date: Mon, 11 Aug 2025 08:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.018321
- Title: Pareto Multi-Objective Alignment for Language Models
- Title(参考訳): 言語モデルのためのパレート多目的アライメント
- Authors: Qiang He, Setareh Maghsudi,
- Abstract要約: 大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的の慎重なバランスを必要とする現実世界のアプリケーションに、ますます多くデプロイされている。
LLMにおける多目的アライメント(MOA)を明示的に設計するアルゴリズムを提案する。
PAMAは、マルチオブジェクトRLHFをクローズドフォームソリューションで凸最適化に変換し、スケーラビリティを大幅に向上させる。
- 参考スコア(独自算出の注目度): 7.9051473654430655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world applications that require careful balancing of multiple, often conflicting, objectives, such as informativeness versus conciseness, or helpfulness versus creativity. However, current alignment methods, primarily based on RLHF, optimize LLMs toward a single reward function, resulting in rigid behavior that fails to capture the complexity and diversity of human preferences. This limitation hinders the adaptability of LLMs to practical scenarios, making multi-objective alignment (MOA) a critical yet underexplored area. To bridge this gap, we propose Pareto Multi-Objective Alignment (PAMA), a principled and computationally efficient algorithm designed explicitly for MOA in LLMs. In contrast to computationally prohibitive multi-objective optimization (MOO) methods, PAMA transforms multi-objective RLHF into a convex optimization with a closed-form solution, significantly enhancing scalability. Traditional MOO approaches suffer from prohibitive O(n^2*d) complexity, where d represents the number of model parameters, typically in the billions for LLMs, rendering direct optimization infeasible. PAMA reduces this complexity to O(n) where n is the number of objectives, enabling optimization to be completed within milliseconds. We provide theoretical guarantees that PAMA converges to a Pareto stationary point, where no objective can be improved without degrading at least one other. Extensive experiments across language models ranging from 125M to 7B parameters demonstrate PAMA's robust and effective MOA capabilities, aligning with its theoretical advantages. PAMA provides a highly efficient solution to the MOA problem that was previously considered intractable, offering a practical and theoretically grounded approach to aligning LLMs with diverse human values, paving the way for versatile and adaptable real-world AI deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の、しばしば矛盾する、情報の伝達対簡潔さ、創造性に対する有用性といった目的の慎重なバランスを必要とする、現実世界のアプリケーションにますます多くデプロイされている。
しかし、現在のアライメント法は主にRLHFに基づいており、LLMを単一の報酬関数に最適化することで、人間の嗜好の複雑さと多様性を捉えることに失敗する。
この制限はLLMの現実的なシナリオへの適応性を妨げ、多目的アライメント(MOA)を重要で未探索の領域にする。
このギャップを埋めるために, LLM における MOA を明示的に設計するアルゴリズムである Pareto Multi-Objective Alignment (PAMA) を提案する。
計算的に禁止された多目的最適化(MOO)法とは対照的に、PAMAは多目的RLHFを閉形式解で凸最適化に変換し、スケーラビリティを著しく向上させる。
従来のMOOアプローチはO(n^2*d)の複雑さに悩まされており、dはモデルパラメータの数を表しており、通常は10億のLSMに対して直接最適化は不可能である。
PAMA はこの複雑さを O(n) に還元し、n は目的数であり、最適化はミリ秒以内で完了する。
PAMAがパレート定常点に収束するという理論的な保証を提供する。
125Mから7Bのパラメータを含む言語モデルにわたる大規模な実験は、PAMAの堅牢で効果的なMOA能力を示し、理論上の利点と一致している。
PAMAは以前、難解であると考えられていたMOA問題に対する高効率なソリューションを提供し、LLMをさまざまな人間の価値と整合させる実践的で理論的に基礎的なアプローチを提供し、汎用的で適応可能な現実世界のAIデプロイメントへの道を開いた。
関連論文リスト
- Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。