論文の概要: Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation
- arxiv url: http://arxiv.org/abs/2511.17579v1
- Date: Sat, 15 Nov 2025 13:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.248726
- Title: Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation
- Title(参考訳): 値デコレーションと外挿によるLLMの多値アライメント
- Authors: Hefei Xu, Le Wu, Chen Cheng, Hao Liu,
- Abstract要約: MVA(Multi-Value Alignment)と呼ばれる新しいフレームワークを提案する。
相互情報の最小化により、多様な人の値間のパラメータ干渉によるアライメントを緩和する。
MVAは、LLMを複数の人間の値と整列させることで、既存のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 23.41040153806061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of large language models (LLMs), aligning them with human values for safety and ethics has become a critical challenge. This problem is especially challenging when multiple, potentially conflicting human values must be considered and balanced. Although several variants of existing alignment methods (such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO)) have been proposed to address multi-value alignment, they suffer from notable limitations: 1) they are often unstable and inefficient in multi-value optimization; and 2) they fail to effectively handle value conflicts. As a result, these approaches typically struggle to achieve optimal trade-offs when aligning multiple values. To address this challenge, we propose a novel framework called Multi-Value Alignment (MVA). It mitigates alignment degradation caused by parameter interference among diverse human values by minimizing their mutual information. Furthermore, we propose a value extrapolation strategy to efficiently explore the Pareto frontier, thereby constructing a set of LLMs with diverse value preferences. Extensive experiments demonstrate that MVA consistently outperforms existing baselines in aligning LLMs with multiple human values.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、安全と倫理のために人的価値に合わせることが重要な課題となっている。
この問題は、複数の、潜在的に矛盾する人間の価値を考慮し、バランスをとる必要がある場合、特に困難である。
既存のアライメント手法(RLHF(Reinforcement Learning from Human Feedback)やDPO(Direct Preference Optimization)など)は多値アライメントに対処するために提案されている。
1) しばしば不安定で、多値最適化において非効率である; そして
2) 価値の衝突を効果的に扱えない。
結果として、これらのアプローチは一般的に、複数の値を調整する際に最適なトレードオフを達成するのに苦労する。
この課題に対処するため、我々はMulti-Value Alignment (MVA)と呼ばれる新しいフレームワークを提案する。
相互情報の最小化により、多様な人間の値間のパラメータ干渉によるアライメント劣化を緩和する。
さらに,Paretoフロンティアを効率的に探索するための値外挿戦略を提案する。
大規模な実験により、MVAはLLMと複数の人間の値の整合において、既存のベースラインを一貫して上回っていることが示されている。
関連論文リスト
- Pareto Multi-Objective Alignment for Language Models [7.9051473654430655]
大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的の慎重なバランスを必要とする現実世界のアプリケーションに、ますます多くデプロイされている。
LLMにおける多目的アライメント(MOA)を明示的に設計するアルゴリズムを提案する。
PAMAは、マルチオブジェクトRLHFをクローズドフォームソリューションで凸最適化に変換し、スケーラビリティを大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-11T08:54:14Z) - PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization [33.60097751620483]
In-Context Learningは、大規模言語モデル(LLM)を人間の価値と整合させる大きな可能性を示している。
LLMの入力プロンプトの理解は依然として不可知であり、ICAが値の緊張に対処する能力を制限する。
この問題に対処する新しい多元的ICA手法であるPICACOを提案する。
論文 参考訳(メタデータ) (2025-07-22T15:14:56Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - MAP: Multi-Human-Value Alignment Palette [22.74688073469946]
我々はMulti-Human-Value Alignment Palette(MAP)と呼ばれる新しい第一原理的アプローチを開発した。
MAPは、構造化され信頼性の高い方法で、複数の人間の値にまたがるアライメントをナビゲートする。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
論文 参考訳(メタデータ) (2024-10-24T23:16:39Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。