論文の概要: Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
- arxiv url: http://arxiv.org/abs/2402.19085v3
- Date: Fri, 11 Oct 2024 08:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:45.112353
- Title: Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
- Title(参考訳): 制御可能な選好最適化:制御可能な多目的アライメントを目指して
- Authors: Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Zexu Sun, Bowen Sun, Huimin Chen, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
- 参考スコア(独自算出の注目度): 103.12563033438715
- License:
- Abstract: Alignment in artificial intelligence pursues the consistency between model responses and human preferences as well as values. In practice, the multifaceted nature of human preferences inadvertently introduces what is known as the "alignment tax" -a compromise where enhancements in alignment within one objective (e.g.,harmlessness) can diminish performance in others (e.g.,helpfulness). However, existing alignment techniques are mostly unidirectional, leading to suboptimal trade-offs and poor flexibility over various objectives. To navigate this challenge, we argue the prominence of grounding LLMs with evident preferences. We introduce controllable preference optimization (CPO), which explicitly specifies preference scores for different objectives, thereby guiding the model to generate responses that meet the requirements. Our experimental analysis reveals that the aligned models can provide responses that match various preferences among the "3H" (helpfulness, honesty, harmlessness) desiderata. Furthermore, by introducing diverse data and alignment goals, we surpass baseline methods in aligning with single objectives, hence mitigating the impact of the alignment tax and achieving improvements in multi-objective alignment.
- Abstract(参考訳): 人工知能におけるアライメントは、モデル応答と人間の嗜好と値の一貫性を追求する。
実際には、人間の嗜好の多面的な性質は、故意に「調整税」(アライメント・タックス)と呼ばれるものを導入しており、ある目的(例えば、ハームレスネス)内でのアライメントの強化が、他の目的(例えば、ヘルパフネス)のパフォーマンスを低下させる可能性がある。
しかし、既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の欠如をもたらす。
この課題をナビゲートするために、明らかな選好でLLMを接地することの優位性について議論する。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定し、要求を満たす応答を生成するようモデルに誘導する。
実験結果から,アライメントモデルにより,デシダラタの「3H」の嗜好に合致する反応が得られた。
さらに、多種多様なデータやアライメント目標を導入することで、単一目的との整合性を基準に超え、アライメント税の影響を軽減し、多目的アライメントの改善を実現する。
関連論文リスト
- MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts [38.95012734839997]
多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。
MCA(Multi-objective Contrastive Alignemnt)を提案する。
論文 参考訳(メタデータ) (2024-08-09T14:36:42Z) - Hybrid Alignment Training for Large Language Models [60.46220684809339]
調整トレーニングは、大きな言語モデルが人間の意図や好みに適応できるようにするために不可欠である。
交互アライメントと変形弾性重み強化法に基づくハイブリッドアライメントトレーニング(Hbat)手法を提案する。
実験の結果,提案したtextscHbat はすべてのベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-21T14:23:57Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-23T09:11:13Z) - An Approach to Ordering Objectives and Pareto Efficient Solutions [0.0]
多目的最適化問題の解法は一般に比較や順序付けはできない。
意思決定者はしばしば、スケールした目的を比較することができると信じている。
確率積分変換を用いて問題の目的を全て同じ範囲のスコアにマッピングする手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。