論文の概要: Reward-free Alignment for Conflicting Objectives
- arxiv url: http://arxiv.org/abs/2602.02495v2
- Date: Mon, 09 Feb 2026 19:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.816036
- Title: Reward-free Alignment for Conflicting Objectives
- Title(参考訳): 紛争対象に対する無逆アライメント
- Authors: Peter L. Chen, Xiaopeng Li, Xi Chen, Tianyi Lin,
- Abstract要約: 我々は、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
RACOはペアワイズ選好データを直接利用し、競合-逆勾配勾配の新たなクリッピング変種を通じて勾配衝突を解消する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
- 参考スコア(独自算出の注目度): 12.275610380458119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
- Abstract(参考訳): 直接アライメント法は、大きな言語モデル(LLM)を人間の好みに合わせるために、ますます使われるようになっている。
しかし、現実のアライメントの問題の多くは複数の相反する目標を伴い、そこでは素直な選好の集約が不安定なトレーニングと粗末なトレードオフにつながる可能性がある。
特に、重み付き損失法は、すべての目的を同時に改善する更新方向の特定に失敗し、既存の多目的アプローチは、しばしば明示的な報酬モデルに依存し、追加の複雑さを導入し、ユーザー指定の好みを歪ませる。
本論文の貢献は2つある。
まず、対関係の選好データを直接活用し、競合-逆勾配勾配の新規なクリッピング変種を用いて勾配競合を解消する、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
第2に,本手法をヒューリスティックスを用いて改良し,LLMアライメントのためのフレームワークの互換性を実証する実験を行った。
複数のLLMファミリー(Qwen, Llama, Gemma3)における多目的要約タスクと安全アライメントタスクの質的および定量的評価は、既存の多目的アライメントベースラインと比較して、我々の手法が一貫してパレートトレードオフを達成していることを示している。
関連論文リスト
- OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment [61.02595549125661]
大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-29T11:16:30Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective [16.79332387603131]
言語モデルにおける多目的的選好アライメントは、しばしば困難なトレードオフに遭遇する。
我々は、これらの衝突を効果的に軽減できるデータのタイプを明らかにするために、新しいデータ駆動アプローチを探求する。
生成したデータは、無害率と無害率の両方で平均13.37%向上し、無害度と無害度を最適化する。
論文 参考訳(メタデータ) (2025-04-15T16:09:19Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts [38.95012734839997]
多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。
MCA(Multi-objective Contrastive Alignemnt)を提案する。
論文 参考訳(メタデータ) (2024-08-09T14:36:42Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [54.2484458418885]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Momentum-based Gradient Methods in Multi-Objective Recommendation [30.894950420437926]
単目的問題の解法として,多目的モデルに依存しないAdamize法を提案する。
我々は2つの多目的レコメンデータシステムと3つの異なる目的の組み合わせに対して、多目的Adamizeの利点を評価する。
論文 参考訳(メタデータ) (2020-09-10T07:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。