論文の概要: HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents
- arxiv url: http://arxiv.org/abs/2503.08241v1
- Date: Tue, 11 Mar 2025 10:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:17.052389
- Title: HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents
- Title(参考訳): HASARD: 身体的エージェントにおける視覚に基づく安全な強化学習のためのベンチマーク
- Authors: Tristan Tomilin, Meng Fang, Mykola Pechenizkiy,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、パフォーマンス評価、手法分析、エージェント能力評価のための堅牢なベンチマークを必要とする。
textbfHASARDは、戦略的意思決定、空間的関係の理解、短期的な未来予測を必要とする多様な複雑なタスクのスイートである。
Hasardは、エゴセントリックな視覚ベースの学習を対象とする最初の安全なRLベンチマークである。
- 参考スコア(独自算出の注目度): 34.36118538208118
- License:
- Abstract: Advancing safe autonomous systems through reinforcement learning (RL) requires robust benchmarks to evaluate performance, analyze methods, and assess agent competencies. Humans primarily rely on embodied visual perception to safely navigate and interact with their surroundings, making it a valuable capability for RL agents. However, existing vision-based 3D benchmarks only consider simple navigation tasks. To address this shortcoming, we introduce \textbf{HASARD}, a suite of diverse and complex tasks to $\textbf{HA}$rness $\textbf{SA}$fe $\textbf{R}$L with $\textbf{D}$oom, requiring strategic decision-making, comprehending spatial relationships, and predicting the short-term future. HASARD features three difficulty levels and two action spaces. An empirical evaluation of popular baseline methods demonstrates the benchmark's complexity, unique challenges, and reward-cost trade-offs. Visualizing agent navigation during training with top-down heatmaps provides insight into a method's learning process. Incrementally training across difficulty levels offers an implicit learning curriculum. HASARD is the first safe RL benchmark to exclusively target egocentric vision-based learning, offering a cost-effective and insightful way to explore the potential and boundaries of current and future safe RL methods. The environments and baseline implementations are open-sourced at https://sites.google.com/view/hasard-bench/.
- Abstract(参考訳): 強化学習(RL)による安全な自律システムの改善には、パフォーマンス評価、手法分析、エージェント能力評価のための堅牢なベンチマークが必要である。
人間は主に、周囲を安全にナビゲートし、相互作用するために、体現された視覚に頼っているため、RLエージェントにとって貴重な能力である。
しかし、既存の視覚ベースの3Dベンチマークでは単純なナビゲーションタスクしか考慮していない。
この欠点に対処するために、さまざまな複雑なタスクのスイートである \textbf{HA}$rness $\textbf{SA}$fe $\textbf{R}$L with $\textbf{D}$oom を紹介し、戦略的意思決定を必要とし、空間的関係を理解し、短期的な未来を予測する。
HASARDには3つの困難レベルと2つのアクションスペースがある。
一般的なベースライン手法の実証的な評価は、ベンチマークの複雑さ、ユニークな課題、報酬コストのトレードオフを示している。
トップダウンのヒートマップを使用したトレーニング中のエージェントナビゲーションの可視化は、メソッドの学習プロセスに関する洞察を提供する。
難易度を越えた漸進的なトレーニングは暗黙の学習カリキュラムを提供する。
HASARDは、エゴセントリックな視覚に基づく学習を対象とする最初の安全なRLベンチマークであり、現在および将来の安全なRLメソッドの可能性と境界を調査するための、費用対効果と洞察に富んだ方法を提供する。
環境とベースラインの実装はhttps://sites.google.com/view/hasard-bench/でオープンソース化されている。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。