論文の概要: Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment
- arxiv url: http://arxiv.org/abs/2402.10207v3
- Date: Sun, 25 Feb 2024 03:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:30:41.943115
- Title: Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment
- Title(参考訳): rewards-in-context:動的嗜好調整を伴う基礎モデルの多目的アライメント
- Authors: Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu,
Jianshu Chen
- Abstract要約: リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
- 参考スコア(独自算出の注目度): 48.773648757361975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of multi-objective alignment of foundation models
with human preferences, which is a critical step towards helpful and harmless
AI systems. However, it is generally costly and unstable to fine-tune large
foundation models using reinforcement learning (RL), and the
multi-dimensionality, heterogeneity, and conflicting nature of human
preferences further complicate the alignment process. In this paper, we
introduce Rewards-in-Context (RiC), which conditions the response of a
foundation model on multiple rewards in its prompt context and applies
supervised fine-tuning for alignment. The salient features of RiC are
simplicity and adaptivity, as it only requires supervised fine-tuning of a
single foundation model and supports dynamic adjustment for user preferences
during inference time. Inspired by the analytical solution of an abstracted
convex optimization problem, our dynamic inference-time adjustment method
approaches the Pareto-optimal solution for multiple objectives. Empirical
evidence demonstrates the efficacy of our method in aligning both Large
Language Models (LLMs) and diffusion models to accommodate diverse rewards with
only around 10% GPU hours compared with multi-objective RL baseline.
- Abstract(参考訳): 我々は、基礎モデルの多目的アライメントと人間の好みの問題を考える。これは、有益で無害なaiシステムへの重要なステップである。
しかし、強化学習(rl)を用いた大規模基礎モデルでは、一般的にコストがかかり不安定であり、多次元性、異質性、相反する人間の選好の性質によりアライメントプロセスはさらに複雑になる。
本稿では,複数の報酬に対する基礎モデルの応答をプロンプト・コンテキストで条件付けし,教師付き微調整をアライメントに適用したrewards-in-context (ric)を提案する。
RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。
抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。
実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。
関連論文リスト
- Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment [0.0]
多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。
ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。
ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
論文 参考訳(メタデータ) (2024-11-16T16:54:33Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Dependency Structure Search Bayesian Optimization for Decision Making Models [29.95525433889418]
本稿では,役割の概念を通じてエージェント相互作用のダイナミクスをモデル化する,コンパクトな多層アーキテクチャを提案する。
不正な報奨や軽微な報奨に強い経験的結果を示した。
論文 参考訳(メタデータ) (2023-08-01T15:56:24Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。