論文の概要: Active Reinforcement Learning under Limited Visual Observability
- arxiv url: http://arxiv.org/abs/2306.00975v1
- Date: Thu, 1 Jun 2023 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:50:30.442351
- Title: Active Reinforcement Learning under Limited Visual Observability
- Title(参考訳): 視覚可観測性制限下でのアクティブ強化学習
- Authors: Jinghuan Shang and Michael S. Ryoo
- Abstract要約: 本研究では,具体的エージェントが同時にタスクのアクションポリシーを学習し,視覚的観察も制御するアクティブ強化学習(Active-RL)について検討する。
運動と感覚のポリシーを個別にモデル化するフレームワークであるSUGARLを提案するが、本質的な感性報酬を用いて共同で学習する。
- 参考スコア(独自算出の注目度): 48.96079276845662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate Active Reinforcement Learning (Active-RL), where
an embodied agent simultaneously learns action policy for the task while also
controlling its visual observations in partially observable environments. We
denote the former as motor policy and the latter as sensory policy. For
example, humans solve real world tasks by hand manipulation (motor policy)
together with eye movements (sensory policy). Active-RL poses challenges on
coordinating two policies given their mutual influence. We propose SUGARL,
Sensorimotor Understanding Guided Active Reinforcement Learning, a framework
that models motor and sensory policies separately, but jointly learns them
using with an intrinsic sensorimotor reward. This learnable reward is assigned
by sensorimotor reward module, incentivizes the sensory policy to select
observations that are optimal to infer its own motor action, inspired by the
sensorimotor stage of humans. Through a series of experiments, we show the
effectiveness of our method across a range of observability conditions and its
adaptability to existed RL algorithms. The sensory policies learned through our
method are observed to exhibit effective active vision strategies.
- Abstract(参考訳): 本研究では,具体的エージェントが同時にタスクのアクションポリシーを学習し,その視覚的観察を部分的に観察可能な環境で制御する能動強化学習(Active-RL)について検討する。
前者は運動政策、後者は感覚政策と表現する。
例えば、人間が目の動き(感覚ポリシー)とともに手操作(運動ポリシー)によって現実世界のタスクを解く。
アクティブRLは、相互の影響から2つの政策の調整に挑戦する。
そこで本研究では,運動・感覚政策を別々にモデル化するフレームワークであるsugarl, sensorimotor understanding active reinforcement learningを提案する。
この学習可能な報酬はsensorimotor rewardモジュールによって割り当てられ、感覚ポリシーにインセンティブを与えて、人間のsensorimotorステージにインスパイアされた、自身の運動動作を推論するのに最適な観察を選択する。
一連の実験を通して, 観測可能性条件の多岐にわたる手法の有効性と, 既存のRLアルゴリズムへの適応性を示す。
本手法により得られた感覚ポリシーは,効果的な視覚戦略を示す。
関連論文リスト
- The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - CADRE: A Cascade Deep Reinforcement Learning Framework for Vision-based
Autonomous Urban Driving [43.269130988225605]
複雑な都市環境と運転行動のダイナミクスのため、高密度交通における視覚に基づく自律走行は極めて困難である。
本稿では,モデルフリーな視覚に基づく自律型都市走行を実現するために,新しいCAscade Deep Reinforcement LearningフレームワークCADREを提案する。
論文 参考訳(メタデータ) (2022-02-17T10:07:16Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - VATLD: A Visual Analytics System to Assess, Understand and Improve
Traffic Light Detection [15.36267013724161]
本稿では,自律運転アプリケーションにおける交通信号検知器の精度とロバスト性を評価・理解・改善する視覚分析システム,VATLDを提案する。
歪んだ表現学習は、人間に親しみやすい視覚的要約で人間の認知を強化するために、データ意味を抽出する。
また、視覚分析システムであるVATLDによる様々な性能改善戦略の有効性を実証し、自律運転における安全クリティカルな応用の実践的意義を示す。
論文 参考訳(メタデータ) (2020-09-27T22:39:00Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。