論文の概要: Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
- arxiv url: http://arxiv.org/abs/2510.01167v1
- Date: Wed, 01 Oct 2025 17:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.704927
- Title: Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
- Title(参考訳): 検証可能な逆数と非検証可能な逆数の同時多目的アライメント
- Authors: Yiran Shen, Yu Xia, Jonathan Chang, Prithviraj Ammanabrolu,
- Abstract要約: 私たちは、検証可能で検証不可能な報酬を持つ領域にまたがるモデルを同時に整合させるのに何が必要かに答えようとしています。
本稿では,プロセス報酬モデル(PRM)のトレーニングを,検証可能な設定と検証できない設定の両方にわたって標準化する統合フレームワークを提案する。
数学推論、値アライメント、マルチターン対話による実験は、我々のフレームワークが複数の目的に対して同時に性能を向上させることを示している。
- 参考スコア(独自算出の注目度): 13.663839318595505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models to human preferences is inherently multidimensional, yet most pipelines collapse heterogeneous signals into a single optimizeable objective. We seek to answer what it would take to simultaneously align a model across various domains spanning those with: verifiable rewards (mathematical accuracy), non-verifiable subjective preferences (human values), and complex interactive scenarios (multi-turn AI tutoring dialogues). Such multi-objective reinforcement learning setups are often plagued by the individual objectives being at odds with each other, resulting in inefficient training and little user control during inference. We propose a unified framework that: (i) standardizes {process reward model} (PRM) training across both verifiable and non-verifiable settings to better supervise models' chain-of-thought reasoning; (ii) performs {multi-objective alignment} by training the LLM with our $\textbf{M}$ulti-$\textbf{A}$ction-$\textbf{H}$ead $\textbf{DPO}$ (MAH-DPO) and a vectorized reward where the dimensions of the vector correspond to the various objectives instead of a single scalar; and (iii) demonstrates how such a system provides fine-grained inference-time user control. Experiments across math reasoning, value alignment, and multi-turn dialogue show that our framework improves performance across multiple objectives simultaneously, while minimizing cross-objective trade-offs and enabling flexible inference time user control. The code can be found at https://github.com/pearls-lab/multiobj-align.
- Abstract(参考訳): 大きな言語モデルを人間の好みに合わせることは本質的に多次元であるが、ほとんどのパイプラインは異種信号を単一の最適化可能な目的に分解する。
検証可能な報酬(数学的精度)、検証不可能な主観的嗜好(人的価値)、複雑な対話的シナリオ(マルチターンAI学習対話)など、さまざまな領域にまたがるモデルを同時に整合させるには、どうすればよいのかを問う。
このような多目的強化学習のセットアップは、互いに相反する個々の目的によって悩まされ、推論中の非効率なトレーニングとユーザコントロールがほとんどなくなる。
統一されたフレームワークを提案します。
i) 検証可能な設定と検証不可能な設定の両方にわたるプロセス報酬モデル(PRM)のトレーニングを標準化し、モデルのチェーン・オブ・シークレット推論をよりよく監視する。
(ii) LLM を $\textbf{M}$ulti-$\textbf{A}$ction-$\textbf{H}$ead $\textbf{DPO}$ (MAH-DPO) でトレーニングすることにより {multi-objective alignment} を実行する。
(iii) このようなシステムが, 微粒な推論時間制御を実現する方法を示す。
数学推論、値アライメント、マルチターンダイアログによる実験により、我々のフレームワークは、オブジェクト間のトレードオフを最小限に抑えつつ、フレキシブルな推論時間ユーザ制御を可能にしながら、複数の目的をまたいだパフォーマンスを同時に向上することが示された。
コードはhttps://github.com/pearls-lab/multiobj-alignにある。
関連論文リスト
- Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Objective Soups: Multilingual Multi-Task Modeling for Speech Processing [69.52720282028385]
マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。
本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。
我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
論文 参考訳(メタデータ) (2025-08-12T07:01:09Z) - Robust Multi-Objective Controlled Decoding of Large Language Models [14.58153072993207]
本稿では,ロバスト多目的復号法(RMOD)を提案する。
RMODは、報酬重み付けとサンプリングポリシーの間の最大2プレーヤゲームとして頑健な復号問題を定式化する。
我々は,ゲームが最悪の重みを求めるために凸最適化問題に還元されるのに対して,最良の応答ポリシは解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2025-03-11T18:15:26Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - AMPO: Active Multi-Preference Optimization for Self-play Preference Selection [16.230186347702737]
マルチパラメータ最適化は、有用な応答と望ましくない応答の集合全体を対比することにより、ペアの好みを超えた言語モデルアライメントを強化する。
そこで本稿では,オンライン・プライス・ジェネレーション,マルチ・コントラスト・グループ・コントラスト・ロス,アクティブ・サブセット選択を組み合わせた新しいアプローチである,$textitActive Multi-Preference Optimization$ (AMPO)を提案する。
AMPO は Llama 8B と Mistral Mist 7B を使って $textitAlpacaEval$ で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-25T15:29:51Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。