論文の概要: A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs
- arxiv url: http://arxiv.org/abs/2504.17006v1
- Date: Wed, 23 Apr 2025 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.124942
- Title: A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs
- Title(参考訳): 実世界のヒューマン・イン・ザ・ループ型深層強化学習のための体系的アプローチ:有能な特徴,課題,トレードオフ
- Authors: Jalal Arabneydi, Saiful Islam, Srijita Das, Sai Krishna Gottipati, William Duguay, Cloderic Mars, Matthew E. Taylor, Matthew Guzdial, Antoine Fagette, Younes Zerouali,
- Abstract要約: 本稿では,自己学習,模倣学習,伝達学習の3種類からなる階層型階層型HITL DRLアルゴリズムを提案する。
我々は、複雑な問題の解決におけるHITLの主な課題、トレードオフ、利点、AIソリューションに人的情報を体系的に組み込む方法について論じる。
- 参考スコア(独自算出の注目度): 8.407988656933762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing popularity of deep reinforcement learning (DRL), human-in-the-loop (HITL) approach has the potential to revolutionize the way we approach decision-making problems and create new opportunities for human-AI collaboration. In this article, we introduce a novel multi-layered hierarchical HITL DRL algorithm that comprises three types of learning: self learning, imitation learning and transfer learning. In addition, we consider three forms of human inputs: reward, action and demonstration. Furthermore, we discuss main challenges, trade-offs and advantages of HITL in solving complex problems and how human information can be integrated in the AI solution systematically. To verify our technical results, we present a real-world unmanned aerial vehicles (UAV) problem wherein a number of enemy drones attack a restricted area. The objective is to design a scalable HITL DRL algorithm for ally drones to neutralize the enemy drones before they reach the area. To this end, we first implement our solution using an award-winning open-source HITL software called Cogment. We then demonstrate several interesting results such as (a) HITL leads to faster training and higher performance, (b) advice acts as a guiding direction for gradient methods and lowers variance, and (c) the amount of advice should neither be too large nor too small to avoid over-training and under-training. Finally, we illustrate the role of human-AI cooperation in solving two real-world complex scenarios, i.e., overloaded and decoy attacks.
- Abstract(参考訳): 深層強化学習(DRL)の普及に伴い、Human-in-the-loop(HITL)アプローチは、意思決定問題へのアプローチ方法に革命をもたらし、人間とAIのコラボレーションのための新たな機会を生み出す可能性がある。
本稿では, 自己学習, 模倣学習, 伝達学習の3種類からなる多層階層型階層型HITL DRLアルゴリズムを提案する。
さらに、報酬、行動、実演の3種類の人間の入力も検討する。
さらに、複雑な問題の解決におけるHITLの主な課題、トレードオフ、利点、AIソリューションに人的情報を体系的に組み込む方法について論じる。
技術的結果を検証するため、現実の無人航空機(UAV)問題として、多数の敵機が制限区域を攻撃している。
目的は、同盟ドローンが地域に到達する前に敵ドローンを中和するためのスケーラブルなHITL DRLアルゴリズムを設計することである。
この目的のために、我々はまずCogmentというオープンソースHITLソフトウェアを使ってソリューションを実装した。
次に、いくつかの興味深い結果を示す。
(a)HITLは訓練の高速化と性能向上につながる。
b)アドバイスは、勾配法の指針として機能し、分散を低くし、
(c)過剰なトレーニングや過度のトレーニングを避けるには、アドバイスの量は大きすぎず、小さすぎるべきではない。
最後に、実世界の2つの複雑なシナリオ、すなわち過負荷およびデコイアタックを解決する上で、人間とAIの協力が果たす役割について説明する。
関連論文リスト
- Human-In-The-Loop Machine Learning for Safe and Ethical Autonomous Vehicles: Principles, Challenges, and Opportunities [33.853994070508485]
我々は、カリキュラム学習(CL)、ヒューマン・イン・ザ・ループ強化学習(HITL-RL)、アクティブ・ラーニング(AL)、倫理的原則に焦点を当てる。
CLでは、人間の専門家が単純なタスクから始めて、より難しいタスクへと徐々に進むことで、MLモデルを体系的に訓練する。
HITL-RLは報酬形成、アクションインジェクション、対話型学習といった技術を通じて人間の入力を組み込むことで、RLプロセスを大幅に強化する。
ALは、人間の監視でラベル付けする必要がある特定のインスタンスをターゲットにすることで、アノテーションプロセスを合理化する。
論文 参考訳(メタデータ) (2024-08-22T17:02:29Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z) - Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-02-26T02:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。