論文の概要: Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback
- arxiv url: http://arxiv.org/abs/2602.20728v1
- Date: Tue, 24 Feb 2026 09:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.702453
- Title: Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback
- Title(参考訳): AIフィードバックによる強化学習による都市交通制御における複数目的のバランス
- Authors: Chenyang Zhao, Vinny Cahill, Ivana Dusparic,
- Abstract要約: 我々は、多目的RLAIFが、努力的な報酬工学を使わずに、異なるユーザの優先順位を反映したバランスの取れたトレードオフをもたらすポリシーを作成できることを示した。
RLAIFを多目的RLに統合することは、ユーザによるポリシー学習へのスケーラブルなパスを提供する、と我々は主張する。
- 参考スコア(独自算出の注目度): 14.81819959351561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design has been one of the central challenges for real world reinforcement learning (RL) deployment, especially in settings with multiple objectives. Preference-based RL offers an appealing alternative by learning from human preferences over pairs of behavioural outcomes. More recently, RL from AI feedback (RLAIF) has demonstrated that large language models (LLMs) can generate preference labels at scale, mitigating the reliance on human annotators. However, existing RLAIF work typically focuses only on single-objective tasks, leaving the open question of how RLAIF handles systems that involve multiple objectives. In such systems trade-offs among conflicting objectives are difficult to specify, and policies risk collapsing into optimizing for a dominant goal. In this paper, we explore the extension of the RLAIF paradigm to multi-objective self-adaptive systems. We show that multi-objective RLAIF can produce policies that yield balanced trade-offs reflecting different user priorities without laborious reward engineering. We argue that integrating RLAIF into multi-objective RL offers a scalable path toward user-aligned policy learning in domains with inherently conflicting objectives.
- Abstract(参考訳): リワードデザインは、特に複数の目的を持った設定において、実世界の強化学習(RL)デプロイメントにおける中心的な課題の1つです。
嗜好に基づくRLは、行動結果のペアよりも人間の好みから学ぶことで魅力的な代替手段を提供する。
最近では、AIフィードバック(RLAIF)のRLが、大規模言語モデル(LLM)が大規模に好みラベルを生成できることを示し、人間のアノテータへの依存を緩和している。
しかしながら、既存のRLAIFの作業は通常単目的タスクのみに焦点を当てており、RLAIFが複数の目的を含むシステムをどのように扱うのかというオープンな疑問を残している。
このようなシステムでは、対立する目標間のトレードオフを特定することは困難であり、政策は、支配的な目標を最適化するために崩壊するリスクがある。
本稿では,RLAIFパラダイムの多目的自己適応システムへの拡張について検討する。
我々は、多目的RLAIFが、努力的な報酬工学を使わずに、異なるユーザの優先順位を反映したバランスの取れたトレードオフをもたらすポリシーを作成できることを示した。
RLAIFを多目的RLに統合することは、本質的に矛盾する目的を持つドメインにおけるユーザ整合型ポリシー学習へのスケーラブルなパスを提供する、と我々は主張する。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Scalable Multi-Objective Reinforcement Learning with Fairness Guarantees using Lorenz Dominance [43.44913206006581]
マルチオブジェクト強化学習(MORL)は、複数の、しばしば矛盾する目標間のトレードオフを最適化する一連のポリシーを学ぶことを目的としている。
本稿では,多目的問題に対するスケーラビリティを向上しつつ,公平性をMORLに組み込んだアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-27T10:16:25Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。