論文の概要: Reward-free Alignment for Conflicting Objectives
- arxiv url: http://arxiv.org/abs/2602.02495v1
- Date: Mon, 02 Feb 2026 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.396131
- Title: Reward-free Alignment for Conflicting Objectives
- Title(参考訳): 紛争対象に対する無逆アライメント
- Authors: Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin,
- Abstract要約: 我々は、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
RACOはペアワイズ選好データを直接利用し、競合-逆勾配勾配の新たなクリッピング変種を通じて勾配衝突を解消する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
- 参考スコア(独自算出の注目度): 15.17649106635087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
- Abstract(参考訳): 直接アライメント法は、大きな言語モデル(LLM)を人間の好みに合わせるために、ますます使われるようになっている。
しかし、現実のアライメントの問題の多くは複数の相反する目標を伴い、そこでは素直な選好の集約が不安定なトレーニングと粗末なトレードオフにつながる可能性がある。
特に、重み付き損失法は、すべての目的を同時に改善する更新方向の特定に失敗し、既存の多目的アプローチは、しばしば明示的な報酬モデルに依存し、追加の複雑さを導入し、ユーザー指定の好みを歪ませる。
本論文の貢献は2つある。
まず、対関係の選好データを直接活用し、競合-逆勾配勾配の新規なクリッピング変種を用いて勾配競合を解消する、競合対象(RACO)に対するリワードフリーアライメントフレームワークを提案する。
ユーザが指定した目標重みを尊重するパレート臨界点に対する収束保証を行い、クリッピングが2目的設定における収束率を厳密に改善できることを示す。
第2に,本手法をヒューリスティックスを用いて改良し,LLMアライメントのためのフレームワークの互換性を実証する実験を行った。
複数のLLMファミリー(Qwen, Llama, Gemma3)における多目的要約タスクと安全アライメントタスクの質的および定量的評価は、既存の多目的アライメントベースラインと比較して、我々の手法が一貫してパレートトレードオフを達成していることを示している。
関連論文リスト
- OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment [61.02595549125661]
大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-29T11:16:30Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective [16.79332387603131]
言語モデルにおける多目的的選好アライメントは、しばしば困難なトレードオフに遭遇する。
我々は、これらの衝突を効果的に軽減できるデータのタイプを明らかにするために、新しいデータ駆動アプローチを探求する。
生成したデータは、無害率と無害率の両方で平均13.37%向上し、無害度と無害度を最適化する。
論文 参考訳(メタデータ) (2025-04-15T16:09:19Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。