論文の概要: Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.11864v2
- Date: Sat, 07 Jun 2025 04:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.9829
- Title: Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning
- Title(参考訳): 雑音選好からのパレート・最適報酬の学習:多目的逆強化学習のためのフレームワーク
- Authors: Kalyan Cherukuri, Aarav Lala,
- Abstract要約: そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。
本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative agents become increasingly capable, alignment of their behavior with complex human values remains a fundamental challenge. Existing approaches often simplify human intent through reduction to a scalar reward, overlooking the multi-faceted nature of human feedback. In this work, we introduce a theoretical framework for preference-based Multi-Objective Inverse Reinforcement Learning (MO-IRL), where human preferences are modeled as latent vector-valued reward functions. We formalize the problem of recovering a Pareto-optimal reward representation from noisy preference queries and establish conditions for identifying the underlying multi-objective structure. We derive tight sample complexity bounds for recovering $\epsilon$-approximations of the Pareto front and introduce a regret formulation to quantify suboptimality in this multi-objective setting. Furthermore, we propose a provably convergent algorithm for policy optimization using preference-inferred reward cones. Our results bridge the gap between practical alignment techniques and theoretical guarantees, providing a principled foundation for learning aligned behaviors in a high-dimension and value-pluralistic environment.
- Abstract(参考訳): 生成的エージェントがますます有能になるにつれて、それらの行動と複雑な人間の価値との整合性は、依然として根本的な課題である。
既存のアプローチはしばしば、人間のフィードバックの多面的な性質を見越して、スカラー報酬への還元を通じて人間の意図を単純化する。
本研究では,嗜好に基づく多目的逆強化学習(MO-IRL, Multi-Objective Inverse Reinforcement Learning)の理論的枠組みを導入する。
我々は、雑音の多い好みクエリからパレート最適報酬表現を復元する問題を定式化し、基礎となる多目的構造を特定する条件を確立する。
我々は、パレートフロントの$\epsilon$-approximationsを回復するための厳密なサンプル複雑性境界を導出し、この多目的設定における部分最適性を定量化するための後悔の定式化を導入する。
さらに、優先推論された報酬円錐を用いた政策最適化のための証明可能な収束アルゴリズムを提案する。
本研究は,実践的アライメント手法と理論的保証のギャップを埋め,高次元・価値多元的環境下でのアライメント行動の学習の原則的基盤を提供するものである。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。