論文の概要: Alignment of large language models with constrained learning
- arxiv url: http://arxiv.org/abs/2505.19387v1
- Date: Mon, 26 May 2025 01:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.087074
- Title: Alignment of large language models with constrained learning
- Title(参考訳): 制約付き学習による大規模言語モデルのアライメント
- Authors: Botong Zhang, Shuo Li, Ignacio Hounie, Osbert Bastani, Dongsheng Ding, Alejandro Ribeiro,
- Abstract要約: 本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
- 参考スコア(独自算出の注目度): 93.2264691508005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the problem of computing an optimal large language model (LLM) policy for a constrained alignment problem, where the goal is to maximize a primary reward objective while satisfying constraints on secondary utilities. Despite the popularity of Lagrangian-based LLM policy search in constrained alignment, iterative primal-dual methods often fail to converge, and non-iterative dual-based methods do not achieve optimality in the LLM parameter space. To address these challenges, we employ Lagrangian duality to develop an iterative dual-based alignment method that alternates between updating the LLM policy via Lagrangian maximization and updating the dual variable via dual descent. In theory, we characterize the primal-dual gap between the primal value in the distribution space and the dual value in the LLM parameter space. We further quantify the optimality gap of the learned LLM policies at near-optimal dual variables with respect to both the objective and the constraint functions. These results prove that dual-based alignment methods can find an optimal constrained LLM policy, up to an LLM parametrization gap. We demonstrate the effectiveness and merits of our approach through extensive experiments conducted on the PKU-SafeRLHF dataset.
- Abstract(参考訳): 本稿では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
ラグランジアンベースのLLMポリシー探索が制約付きアライメントで人気があるにもかかわらず、反復的原始双対法はしばしば収束せず、非定型双対法はLLMパラメータ空間の最適性を達成できない。
これらの課題に対処するために、我々はラグランジアン双対性を用いて、ラグランジアン最大化によるLSMポリシーの更新と二重降下による双対変数の更新を交互に交互に行う反復双対アライメント法を開発した。
理論的には、分布空間における原始値とLLMパラメータ空間における双対値との原始-双対ギャップを特徴づける。
さらに、目的関数と制約関数の両方に関して、学習したLLMポリシーのほぼ最適双対変数における最適性ギャップを定量化する。
これらの結果から,デュアルベースアライメント法は,LLMのパラメトリゼーションギャップまで,最適に制約されたLCMポリシーを見つけることができることがわかった。
PKU-SafeRLHFデータセット上で行った広範囲な実験を通じて,本手法の有効性とメリットを実証する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Controllable Expensive Multi-objective Learning with Warm-starting
Bayesian Optimization [4.833815605196964]
本稿では,Co-PSLと呼ばれる新しい制御可能な手法を用いて,既存のPSL法の不安定性と非効率性に対処することを提案する。
前者はPSLプロセスの安定化と高価な機能評価の削減を支援するためであり、後者は競合する目的間のリアルタイムトレードオフ制御を支援するためである。
合成および実世界のMOO問題における性能は、高価な多目的最適化タスクにおけるCo-PSLの有効性を示す。
論文 参考訳(メタデータ) (2023-11-26T13:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。