論文の概要: Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment
- arxiv url: http://arxiv.org/abs/2402.19085v1
- Date: Thu, 29 Feb 2024 12:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:05:08.205596
- Title: Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment
- Title(参考訳): 制御可能な選好最適化:制御可能な多目的アライメントに向けて
- Authors: Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Jiexin Wang, Huimin Chen,
Bowen Sun, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
- Abstract要約: 人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
- 参考スコア(独自算出の注目度): 107.63756895544842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment in artificial intelligence pursues the consistency between model
responses and human preferences as well as values. In practice, the
multifaceted nature of human preferences inadvertently introduces what is known
as the "alignment tax" -a compromise where enhancements in alignment within one
objective (e.g.,harmlessness) can diminish performance in others
(e.g.,helpfulness). However, existing alignment techniques are mostly
unidirectional, leading to suboptimal trade-offs and poor flexibility over
various objectives. To navigate this challenge, we argue the prominence of
grounding LLMs with evident preferences. We introduce controllable preference
optimization (CPO), which explicitly specifies preference scores for different
objectives, thereby guiding the model to generate responses that meet the
requirements. Our experimental analysis reveals that the aligned models can
provide responses that match various preferences among the "3H" (helpfulness,
honesty, harmlessness) desiderata. Furthermore, by introducing diverse data and
alignment goals, we surpass baseline methods in aligning with single
objectives, hence mitigating the impact of the alignment tax and achieving
Pareto improvements in multi-objective alignment.
- Abstract(参考訳): 人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
実際には、人間の選好の多面的な性質は、不注意に「割当税」と呼ばれる、ある目的(例えば不調和)における一致の強化によって他人のパフォーマンスが低下する(例えば、助力)妥協を導入する。
しかし、既存のアライメント技術はほとんどが一方向であり、様々な目的に対して最適でないトレードオフと柔軟性の欠如をもたらす。
この課題をナビゲートするために、明らかな選好でLLMを接地することの優位性について議論する。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定し、要求を満たす応答を生成するようモデルに誘導する。
実験結果から,アライメントモデルが「3h」デシデラタの様々な嗜好に適合する応答を提示できることが判明した。
さらに,多様なデータとアライメント目標を導入することで,単一目的のアライメントにおけるベースライン手法を克服し,アライメント税の影響を緩和し,多目的アライメントにおけるパレート改善を実現する。
関連論文リスト
- Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-23T09:11:13Z) - Multiobjective Ranking and Selection Using Stochastic Kriging [0.0]
我々は,複数の矛盾する目的を同時に最適化し,シミュレーションによってのみ観測できる多目的シミュレーション最適化問題を考察する。
最適性は、他の目的の質を損なうことなく、目的を改善できないことを意味する。
提案手法は, 最適性能の解を同定する際の誤差を減らすため, 多目的ランキングと選択法を提案する。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - An Approach to Ordering Objectives and Pareto Efficient Solutions [0.0]
多目的最適化問題の解法は一般に比較や順序付けはできない。
意思決定者はしばしば、スケールした目的を比較することができると信じている。
確率積分変換を用いて問題の目的を全て同じ範囲のスコアにマッピングする手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。