論文の概要: REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2504.11337v1
- Date: Tue, 15 Apr 2025 16:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:30.961345
- Title: REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective
- Title(参考訳): ReWARD Consistence:データ中心から見た多目的アライメントの改善
- Authors: Zhihao Xu, Yongqi Tong, Xin Zhang, Jun Zhou, Xiting Wang,
- Abstract要約: 言語モデルにおける多目的的選好アライメントは、しばしば困難なトレードオフに遭遇する。
我々は、これらの衝突を効果的に軽減できるデータのタイプを明らかにするために、新しいデータ駆動アプローチを探求する。
生成したデータは、無害率と無害率の両方で平均13.37%向上し、無害度と無害度を最適化する。
- 参考スコア(独自算出の注目度): 16.79332387603131
- License:
- Abstract: Multi-objective preference alignment in language models often encounters a challenging trade-off: optimizing for one human preference (e.g., helpfulness) frequently compromises others (e.g., harmlessness) due to the inherent conflicts between competing objectives. While prior work mainly focuses on algorithmic solutions, we explore a novel data-driven approach to uncover the types of data that can effectively mitigate these conflicts. Specifically, we propose the concept of Reward Consistency (RC), which identifies samples that align with multiple preference objectives, thereby reducing conflicts during training. Through gradient-based analysis, we demonstrate that RC-compliant samples inherently constrain performance degradation during multi-objective optimization. Building on these insights, we further develop Reward Consistency Sampling, a framework that automatically constructs preference datasets that effectively mitigate conflicts during multi-objective alignment. Our generated data achieves an average improvement of 13.37% in both the harmless rate and helpfulness win rate when optimizing harmlessness and helpfulness, and can consistently resolve conflicts in varying multi-objective scenarios.
- Abstract(参考訳): 言語モデルにおける多目的の選好アライメントは、しばしば困難なトレードオフに遭遇する: 一つの人間の選好(例えば、役に立つ)を最適化することは、競合する目的間の固有の対立のために、しばしば他人(例えば、無害)を妥協する。
これまでの研究は主にアルゴリズムによるソリューションに焦点を当てていたが、これらの競合を効果的に軽減できるデータの種類を明らかにするための、新しいデータ駆動アプローチを探求する。
具体的には,複数の選好目標に整合したサンプルを識別し,トレーニング中の衝突を減らすために,Reward Consistency(RC)の概念を提案する。
勾配に基づく解析により、RC準拠のサンプルは、多目的最適化時の性能劣化を本質的に抑制することを示した。
これらの知見に基づいて,マルチオブジェクトアライメント時の競合を効果的に緩和する選好データセットを自動的に構築するフレームワークであるReward Consistency Samplingを開発する。
生成したデータは、無害率と無害率の両方で平均13.37%向上し、無害度と無害度を最適化し、多目的シナリオの矛盾を一貫して解決することができる。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts [38.95012734839997]
多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。
MCA(Multi-objective Contrastive Alignemnt)を提案する。
論文 参考訳(メタデータ) (2024-08-09T14:36:42Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Differentiation of Multi-objective Data-driven Decision Pipeline [34.577809430781144]
実世界のシナリオは、しばしば多目的データ駆動最適化問題を含む。
従来の2段階の手法では、機械学習モデルを用いて問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。
近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。
論文 参考訳(メタデータ) (2024-06-02T15:42:03Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。