論文の概要: Human-In-The-Loop Machine Learning for Safe and Ethical Autonomous Vehicles: Principles, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2408.12548v2
- Date: Sun, 8 Sep 2024 03:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:05:18.013099
- Title: Human-In-The-Loop Machine Learning for Safe and Ethical Autonomous Vehicles: Principles, Challenges, and Opportunities
- Title(参考訳): 安全で倫理的な自動運転車のための人間によるロボット学習--原則、課題、機会
- Authors: Yousef Emami, Luis Almeida, Kai Li, Wei Ni, Zhu Han,
- Abstract要約: 我々は、カリキュラム学習(CL)、ヒューマン・イン・ザ・ループ強化学習(HITL-RL)、アクティブ・ラーニング(AL)、倫理的原則に焦点を当てる。
CLでは、人間の専門家が単純なタスクから始めて、より難しいタスクへと徐々に進むことで、MLモデルを体系的に訓練する。
HITL-RLは報酬形成、アクションインジェクション、対話型学習といった技術を通じて人間の入力を組み込むことで、RLプロセスを大幅に強化する。
ALは、人間の監視でラベル付けする必要がある特定のインスタンスをターゲットにすることで、アノテーションプロセスを合理化する。
- 参考スコア(独自算出の注目度): 33.853994070508485
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Rapid advances in Machine Learning (ML) have triggered new trends in Autonomous Vehicles (AVs). ML algorithms play a crucial role in interpreting sensor data, predicting potential hazards, and optimizing navigation strategies. However, achieving full autonomy in cluttered and complex situations, such as intricate intersections, diverse sceneries, varied trajectories, and complex missions, is still challenging, and the cost of data labeling remains a significant bottleneck. The adaptability and robustness of humans in complex scenarios motivate the inclusion of humans in the ML process, leveraging their creativity, ethical power, and emotional intelligence to improve ML effectiveness. The scientific community knows this approach as Human-In-The-Loop Machine Learning (HITL-ML). Towards safe and ethical autonomy, we present a review of HITL-ML for AVs, focusing on Curriculum Learning (CL), Human-In-The-Loop Reinforcement Learning (HITL-RL), Active Learning (AL), and ethical principles. In CL, human experts systematically train ML models by starting with simple tasks and gradually progressing to more difficult ones. HITL-RL significantly enhances the RL process by incorporating human input through techniques like reward shaping, action injection, and interactive learning. AL streamlines the annotation process by targeting specific instances that need to be labeled with human oversight, reducing the overall time and cost associated with training. Ethical principles must be embedded in AVs to align their behavior with societal values and norms. In addition, we provide insights and specify future research directions.
- Abstract(参考訳): 機械学習(ML)の急速な進歩は、自律走行車(AV)の新たなトレンドを引き起こしている。
MLアルゴリズムは、センサデータの解釈、潜在的なハザードの予測、ナビゲーション戦略の最適化において重要な役割を果たす。
しかし、複雑な交差点、多様な景色、様々な軌道、複雑なミッションなど、散らばった複雑な状況において完全な自律性を達成することは依然として困難であり、データラベルのコストは依然として大きなボトルネックとなっている。
複雑なシナリオにおける人間の適応性と堅牢性は、人間のMLプロセスへの参加を動機付け、その創造性、倫理的能力、感情的知性を活用してMLの有効性を向上させる。
科学的コミュニティは、このアプローチをHuman-In-The-Loop Machine Learning (HITL-ML)として知っている。
安全・倫理的な自律性に向けて,我々はカリキュラム学習(CL),ヒューマン・イン・ザ・ループ強化学習(HITL-RL),アクティブ・ラーニング(AL),倫理的原則を中心に,AVのためのHITL-MLのレビューを行う。
CLでは、人間の専門家が単純なタスクから始めて、より難しいタスクへと徐々に進むことで、MLモデルを体系的に訓練する。
HITL-RLは報酬形成、アクションインジェクション、対話型学習といった技術を通じて人間の入力を組み込むことで、RLプロセスを大幅に強化する。
ALは、人間の監視でラベル付けする必要がある特定のインスタンスをターゲットにすることで、アノテーションプロセスの合理化を図り、トレーニングに関連する全体的な時間とコストを削減します。
倫理原則は、彼らの行動と社会的価値と規範を一致させるために、AVに埋め込まれなければならない。
さらに、洞察を提供し、今後の研究の方向性を特定する。
関連論文リスト
- Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy [31.818923556912495]
我々は,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入する。
ILを2段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。
ILはロボットの自律性を大幅に向上させ、多様な領域にわたるさらなる研究を促進することを期待している。
論文 参考訳(メタデータ) (2024-06-23T12:02:17Z) - LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。
本稿では,LLMのための自律学習手法を提案する。
本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文 参考訳(メタデータ) (2024-06-02T03:36:37Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Self-directed Machine Learning [86.3709575146414]
教育科学において、自己指導型学習は受動的教師指導型学習よりも効果的であることが示されている。
本稿では,自己指向機械学習(SDML)の基本概念を紹介し,SDMLのためのフレームワークを提案する。
提案したSDMLプロセスは,自己タスク選択,自己データ選択,自己モデル選択,自己最適化戦略選択,自己評価基準選択の恩恵を受ける。
論文 参考訳(メタデータ) (2022-01-04T18:32:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。