論文の概要: MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning
- arxiv url: http://arxiv.org/abs/2201.00012v1
- Date: Thu, 30 Dec 2021 19:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 04:20:45.908686
- Title: MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning
- Title(参考訳): モラル:多目的強化アクティブラーニングによる人間ノルムによるAIの調整
- Authors: Markus Peschl, Arkady Zgonnikov, Frans A. Oliehoek, Luciano C. Siebert
- Abstract要約: 最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
- 参考スコア(独自算出の注目度): 14.06682547001011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring reward functions from demonstrations and pairwise preferences are
auspicious approaches for aligning Reinforcement Learning (RL) agents with
human intentions. However, state-of-the art methods typically focus on learning
a single reward model, thus rendering it difficult to trade off different
reward functions from multiple experts. We propose Multi-Objective Reinforced
Active Learning (MORAL), a novel method for combining diverse demonstrations of
social norms into a Pareto-optimal policy. Through maintaining a distribution
over scalarization weights, our approach is able to interactively tune a deep
RL agent towards a variety of preferences, while eliminating the need for
computing multiple policies. We empirically demonstrate the effectiveness of
MORAL in two scenarios, which model a delivery and an emergency task that
require an agent to act in the presence of normative conflicts. Overall, we
consider our research a step towards multi-objective RL with learned rewards,
bridging the gap between current reward learning and machine ethics literature.
- Abstract(参考訳): デモンストレーションやペアワイズによる報酬関数の推測は、強化学習(rl)エージェントを人間の意図に合わせるための好意的なアプローチである。
しかし、最先端の手法は一般的に単一の報酬モデルを学ぶことに集中しているため、複数の専門家から異なる報酬関数を交換することは困難である。
本研究では,多目的強化アクティブラーニング(moral,multi-objective reinforced active learning)を提案する。
スカラー化重みの分布を維持することにより,複数のポリシーの計算を不要にしつつ,多種多様な選好に対して深いrlエージェントをインタラクティブにチューニングすることができる。
我々は,納品をモデル化する2つのシナリオにおいて,モラルの有効性を実証的に実証する。
全体として,本研究は学習報酬を伴う多目的rlへの一歩であり,現在の報酬学習と機械倫理文献とのギャップを橋渡ししている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Effective Multimodal Reinforcement Learning with Modality Alignment and
Importance Enhancement [41.657470314421204]
異質性や異なるモダリティのダイナミックな重要性のため、強化学習を通じてエージェントを訓練することは困難である。
本稿では,その類似性と重要度に応じて,多モーダルアライメントと重要度向上を実現する,新しいマルチモーダルRL手法を提案する。
我々は,複数のマルチモーダルRLドメインに対するアプローチを検証し,学習速度と政策品質の点で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-02-18T12:35:42Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。