論文の概要: Learning from Active Human Involvement through Proxy Value Propagation
- arxiv url: http://arxiv.org/abs/2502.03369v1
- Date: Wed, 05 Feb 2025 17:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:43.099984
- Title: Learning from Active Human Involvement through Proxy Value Propagation
- Title(参考訳): Proxy Value Propagationによるアクティブヒューマンインクルージョンからの学習
- Authors: Zhenghao Peng, Wenjie Mo, Chenda Duan, Quanyi Li, Bolei Zhou,
- Abstract要約: アクティブな人間の関与から学ぶことで、トレーニング中に人間の被験者が積極的に介入し、AIエージェントに示すことができる。
本稿では,ポリシー最適化のためのプロクシー値伝搬という,報酬のないアクティブな人間関与手法を提案する。
本手法は,グランドセフト自動車Vにおける運転の難易度を含む,多種多様な制御装置による連続的かつ離散的な制御課題の解決を学習することができる。
- 参考スコア(独自算出の注目度): 44.144964115275
- License:
- Abstract: Learning from active human involvement enables the human subject to actively intervene and demonstrate to the AI agent during training. The interaction and corrective feedback from human brings safety and AI alignment to the learning process. In this work, we propose a new reward-free active human involvement method called Proxy Value Propagation for policy optimization. Our key insight is that a proxy value function can be designed to express human intents, wherein state-action pairs in the human demonstration are labeled with high values, while those agents' actions that are intervened receive low values. Through the TD-learning framework, labeled values of demonstrated state-action pairs are further propagated to other unlabeled data generated from agents' exploration. The proxy value function thus induces a policy that faithfully emulates human behaviors. Human-in-the-loop experiments show the generality and efficiency of our method. With minimal modification to existing reinforcement learning algorithms, our method can learn to solve continuous and discrete control tasks with various human control devices, including the challenging task of driving in Grand Theft Auto V. Demo video and code are available at: https://metadriverse.github.io/pvp
- Abstract(参考訳): アクティブな人間の関与から学ぶことで、トレーニング中に人間の被験者が積極的に介入し、AIエージェントに示すことができる。
人間からのインタラクションと修正的なフィードバックは、学習プロセスに安全とAIの整合性をもたらす。
本研究では,政策最適化のためのプロクシーバリュー・プロパゲーションと呼ばれる,報酬なしのアクティブ・ヒューマン・エンゲージメント手法を提案する。
我々のキーとなる洞察は、人間の意図を表現するためにプロキシ値関数を設計することができ、人間のデモンストレーションにおける状態-アクションペアは高い値でラベル付けされ、介入されるエージェントのアクションは低い値を受け取ります。
TD学習フレームワークを通じて、実証された状態-作用ペアのラベル付き値は、エージェントの探索から生成された他のラベルなしデータにさらに伝播される。
プロキシ値関数は、人間の振る舞いを忠実にエミュレートするポリシーを誘導する。
提案手法の汎用性と効率性を示す。
既存の強化学習アルゴリズムに最小限の修正を加えることで、グランドセフトオートVでの運転の困難なタスクを含む、さまざまな人間の制御装置による連続的かつ離散的な制御タスクを学習することができる。
関連論文リスト
- HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Efficient Learning of Safe Driving Policy via Human-AI Copilot
Optimization [38.21629972247463]
我々はHuman-AI Copilot Optimization (HACO)と呼ばれる新しいループ学習手法を開発した。
提案したHACOは、トライアル・アンド・エラー探査と人間の部分的なデモンストレーションの両方から、ハイパフォーマンスエージェントのトレーニングに有効に活用する。
実験により、HACOは安全な運転ベンチマークにおいて、かなり高い試料効率を達成することが示された。
論文 参考訳(メタデータ) (2022-02-17T06:29:46Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。