論文の概要: Human-AI Shared Control via Frequency-based Policy Dissection
- arxiv url: http://arxiv.org/abs/2206.00152v1
- Date: Tue, 31 May 2022 23:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 07:40:17.386805
- Title: Human-AI Shared Control via Frequency-based Policy Dissection
- Title(参考訳): 頻度に基づく政策分断によるヒューマンai共有制御
- Authors: Quanyi Li, Zhenghao Peng, Haibin Wu, Lan Feng, Bolei Zhou
- Abstract要約: 人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
- 参考スコア(独自算出の注目度): 34.0399894373716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-AI shared control allows human to interact and collaborate with AI to
accomplish control tasks in complex environments. Previous Reinforcement
Learning (RL) methods attempt the goal-conditioned design to achieve
human-controllable policies at the cost of redesigning the reward function and
training paradigm. Inspired by the neuroscience approach to investigate the
motor cortex in primates, we develop a simple yet effective frequency-based
approach called \textit{Policy Dissection} to align the intermediate
representation of the learned neural controller with the kinematic attributes
of the agent behavior. Without modifying the neural controller or retraining
the model, the proposed approach can convert a given RL-trained policy into a
human-interactive policy. We evaluate the proposed approach on the RL tasks of
autonomous driving and locomotion. The experiments show that human-AI shared
control achieved by Policy Dissection in driving task can substantially improve
the performance and safety in unseen traffic scenes. With human in the loop,
the locomotion robots also exhibit versatile controllable motion skills even
though they are only trained to move forward. Our results suggest the promising
direction of implementing human-AI shared autonomy through interpreting the
learned representation of the autonomous agents. Demo video and code will be
made available at https://metadriverse.github.io/policydissect.
- Abstract(参考訳): 人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、報酬関数の再設計とトレーニングパラダイムを犠牲にして、人間制御可能なポリシーを実現するために目標条件付き設計を試みる。
霊長類の運動野を調査するための神経科学的アプローチに触発され、学習した神経制御器の中間表現とエージェントの行動の運動的属性を整合させるために、単純で効果的な周波数ベースのアプローチである \textit{policy dissection} を開発した。
ニューラルコントローラを変更したり、モデルを再訓練することなく、提案したアプローチは、与えられたRL訓練されたポリシーを人間間ポリシーに変換することができる。
自律走行と移動のRL課題に対する提案手法の評価を行った。
実験の結果,運転課題におけるポリシー分割による人間-ai共有制御は,交通現場における性能と安全性を著しく向上できることがわかった。
ループに人間を乗せたロボットは、前進のみを訓練されているにもかかわらず、多目的に制御可能なモーションスキルも備えている。
この結果から,自律エージェントの学習表現を解釈することで,人間とAIが共有する自律性を実現するという有望な方向性が示唆された。
デモビデオとコードはhttps://metadriverse.github.io/policydissectで入手できる。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Decentralized Motor Skill Learning for Complex Robotic Systems [5.669790037378093]
本稿では,分散モータスキル(DEMOS)学習アルゴリズムを提案する。
本手法は, 性能を犠牲にすることなく, 政策の堅牢性と一般化を向上する。
四足歩行ロボットとヒューマノイドロボットの実験は、学習方針が局所的な運動障害に対して堅牢であり、新しいタスクに移行できることを示した。
論文 参考訳(メタデータ) (2023-06-30T05:55:34Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - AirCapRL: Autonomous Aerial Human Motion Capture using Deep
Reinforcement Learning [38.429105809093116]
自律型空中人体モーションキャプチャ(MoCap)のための深部強化学習(RL)に基づくマルチロボット生成コントローラを提案する。
視覚に基づくMoCapに焦点をあて,体ポーズの軌跡を推定し,複数の空飛ぶ車を用いて1人の動く人物を形作る。
論文 参考訳(メタデータ) (2020-07-13T12:30:31Z) - Deep Reinforcement Learning for Human-Like Driving Policies in Collision
Avoidance Tasks of Self-Driving Cars [1.160208922584163]
自動運転ポリシーを生成するために,モデルフリーで深層強化学習手法を導入する。
本研究では,2車線道路における静的障害物回避タスクをシミュレーションで検討する。
このアプローチが人間ライクな運転ポリシーにつながることを実証します。
論文 参考訳(メタデータ) (2020-06-07T18:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。