論文の概要: Value Driven Representation for Human-in-the-Loop Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.01223v1
- Date: Thu, 2 Apr 2020 18:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:37:49.247899
- Title: Value Driven Representation for Human-in-the-Loop Reinforcement Learning
- Title(参考訳): 対人強化学習のための価値駆動表現
- Authors: Ramtin Keramati, Emma Brunskill
- Abstract要約: 我々は,システム設計者が,強化学習エージェントが使用する観測空間を定義するために,センサセットや特徴セットを選択する方法のアルゴリズム的基礎に焦点をあてる。
本稿では、強化学習エージェントの観測空間を反復的かつ適応的に拡張するアルゴリズム、値駆動表現(VDR)を提案する。
シミュレーションされた人間を用いた標準RLベンチマークによる手法の性能評価を行い、従来のベースラインよりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 33.79501890330252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive adaptive systems powered by Reinforcement Learning (RL) have many
potential applications, such as intelligent tutoring systems. In such systems
there is typically an external human system designer that is creating,
monitoring and modifying the interactive adaptive system, trying to improve its
performance on the target outcomes. In this paper we focus on algorithmic
foundation of how to help the system designer choose the set of sensors or
features to define the observation space used by reinforcement learning agent.
We present an algorithm, value driven representation (VDR), that can
iteratively and adaptively augment the observation space of a reinforcement
learning agent so that is sufficient to capture a (near) optimal policy. To do
so we introduce a new method to optimistically estimate the value of a policy
using offline simulated Monte Carlo rollouts. We evaluate the performance of
our approach on standard RL benchmarks with simulated humans and demonstrate
significant improvement over prior baselines.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) を利用した対話型適応システムには,知的チューリングシステムなど多くの潜在的な応用がある。
そのようなシステムでは、通常、対話型適応システムを作成し、監視し、修正し、目標とする結果に対するパフォーマンスを向上させる外部の人間系設計者がいます。
本稿では,強化学習エージェントが使用する観測空間を定義するためのセンサや特徴のセットをシステム設計者が選択するためのアルゴリズム的基礎について述べる。
本稿では,拡張学習エージェントの観測空間を反復的かつ適応的に拡張し,(近く)最適ポリシーを捉えるのに十分なアルゴリズムである値駆動表現(VDR)を提案する。
そこで我々は,オフラインシミュレーションモンテカルロロールアウトを用いて,ポリシーの価値を楽観的に推定する新しい手法を提案する。
シミュレーション人間を用いた標準rlベンチマークにおける本手法の性能評価を行い,従来の基準よりも有意な改善を示した。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Control-Aware Representations for Model-based Reinforcement Learning [36.221391601609255]
現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。
学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜在空間に埋め込むことによって、この問題に対処する有望なアプローチである。
この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。
論文 参考訳(メタデータ) (2020-06-24T01:00:32Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。