Fugu-MT 論文翻訳(概要): Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

論文の概要: Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

arxiv url: http://arxiv.org/abs/2402.10207v6
Date: Wed, 16 Oct 2024 03:24:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 06:15:41.782137
Title: Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment
Title（参考訳）: Rewards-in-Context:動的優先度調整による基礎モデルの多目的アライメント
Authors: Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen,
Abstract要約: リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。 RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
参考スコア（独自算出の注目度）: 46.44464839353993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around 10% GPU hours compared with multi-objective RL baseline.
Abstract（参考訳）: 我々は,人選好による基礎モデルの多目的アライメントの問題を考える。しかし、一般に、強化学習(RL)を用いた大規模基礎モデルの構築にはコストがかかり不安定であり、多次元性、不均一性、そして人間の嗜好の相反する性質は、アライメントプロセスをさらに複雑にする。本稿では,リワード・イン・コンテキスト(Rewards-in-Context,RiC)について紹介する。 RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。

関連論文リスト

Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation [3.1194372040101928]
重み付き和で修正した元来の単目的RLアルゴリズムに対してベンチマークした多目的強化学習(RL)法を用いてモデルを評価する。我々は、カスタマイズ可能なシミュレータを用いて、様々なネットワーク複雑度の実験を行い、典型的な現実世界の課題を模倣する。このモデルはサプライチェーンの経路をまたいだ生産量と納入量を決定し、競合する目標間のほぼ最適なトレードオフを達成する。
論文参考訳（メタデータ） (2025-07-26T04:30:11Z)
Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文参考訳（メタデータ） (2025-05-17T06:09:13Z)
REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective [16.79332387603131]
言語モデルにおける多目的的選好アライメントは、しばしば困難なトレードオフに遭遇する。我々は、これらの衝突を効果的に軽減できるデータのタイプを明らかにするために、新しいデータ駆動アプローチを探求する。生成したデータは、無害率と無害率の両方で平均13.37%向上し、無害度と無害度を最適化する。
論文参考訳（メタデータ） (2025-04-15T16:09:19Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [15.53963063493065]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文参考訳（メタデータ） (2025-03-10T09:52:42Z)
Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-01T02:01:49Z)
MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。 MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文参考訳（メタデータ） (2025-02-25T23:22:12Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment [0.0]
多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。 ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。 ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
論文参考訳（メタデータ） (2024-11-16T16:54:33Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Context-aware Diversity Enhancement for Neural Multi-Objective Combinatorial Optimization [19.631213689157995]
マルチオブジェクト最適化(MOCO)問題は、様々な現実世界のアプリケーションで広く用いられている。我々はCDEというコンテキスト対応の多様性向上アルゴリズムを提案する。提案したCDEは,文脈情報を効果的かつ効率的に把握し,多様性の向上をもたらす。
論文参考訳（メタデータ） (2024-05-14T13:42:19Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Dependency Structure Search Bayesian Optimization for Decision Making Models [29.95525433889418]
本稿では,役割の概念を通じてエージェント相互作用のダイナミクスをモデル化する,コンパクトな多層アーキテクチャを提案する。不正な報奨や軽微な報奨に強い経験的結果を示した。
論文参考訳（メタデータ） (2023-08-01T15:56:24Z)
Exploiting Temporal Structures of Cyclostationary Signals for Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文参考訳（メタデータ） (2022-08-22T14:04:56Z)
Pareto Set Learning for Neural Multi-objective Combinatorial Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文参考訳（メタデータ） (2022-03-29T09:26:22Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。