論文の概要: Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts
- arxiv url: http://arxiv.org/abs/2408.05094v1
- Date: Fri, 9 Aug 2024 14:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:27:33.626888
- Title: Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts
- Title(参考訳): 復号時間制御のアンロック:コントラスト付きグラディエントフリー多目的アライメント
- Authors: Tingchen Fu, Yupeng Hou, Julian McAuley, Rui Yan,
- Abstract要約: 多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。
MCA(Multi-objective Contrastive Alignemnt)を提案する。
- 参考スコア(独自算出の注目度): 38.95012734839997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of multi-objective alignment aims at balancing and controlling the different alignment objectives (e.g., helpfulness, harmlessness and honesty) of large language models to meet the personalized requirements of different users. However, previous methods tend to train multiple models to deal with various user preferences, with the number of trained models growing linearly with the number of alignment objectives and the number of different preferences. Meanwhile, existing methods are generally poor in extensibility and require significant re-training for each new alignment objective considered. Considering the limitation of previous approaches, we propose MCA (Multi-objective Contrastive Alignemnt), which constructs an expert prompt and an adversarial prompt for each objective to contrast at the decoding time and balances the objectives through combining the contrast. Our approach is verified to be superior to previous methods in obtaining a well-distributed Pareto front among different alignment objectives.
- Abstract(参考訳): 多目的アライメントのタスクは、異なるユーザのパーソナライズされた要求を満たすために、大きな言語モデルの異なるアライメント目標(例えば、助け、無害、誠実さ)のバランスと制御を目標とする。
しかし、従来の手法では、複数のモデルをトレーニングして様々なユーザの好みに対処する傾向があり、トレーニングされたモデルの数は、アライメントの目的の数と異なる好みの数とで線形に増加する。
一方、既存の手法は拡張性に乏しく、考慮すべき新たなアライメント対象ごとに大幅な再訓練が必要である。
従来の手法の限界を考慮し、専門家のプロンプトと相手のプロンプトを構成するMCA(Multi-Objective Contrastive Alignemnt)を提案する。
提案手法は,異なるアライメント目的において,よく分散されたParetoフロントを得る上で,従来の手法よりも優れていることが確認された。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Multi-Target Multiplicity: Flexibility and Fairness in Target
Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。
目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文 参考訳(メタデータ) (2023-06-23T18:57:14Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Momentum-based Gradient Methods in Multi-Objective Recommendation [30.894950420437926]
単目的問題の解法として,多目的モデルに依存しないAdamize法を提案する。
我々は2つの多目的レコメンデータシステムと3つの異なる目的の組み合わせに対して、多目的Adamizeの利点を評価する。
論文 参考訳(メタデータ) (2020-09-10T07:12:21Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。