論文の概要: SEMI: Self-supervised Exploration via Multisensory Incongruity
- arxiv url: http://arxiv.org/abs/2009.12494v2
- Date: Thu, 19 May 2022 06:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:36:38.414036
- Title: SEMI: Self-supervised Exploration via Multisensory Incongruity
- Title(参考訳): SEMI:マルチセンサー・インコングルティによる自己監督型探査
- Authors: Jianren Wang, Ziwen Zhuang, Hang Zhao
- Abstract要約: エージェントにインセンティブを与えて,新たな新規性信号である多感覚不整合を最大化する自己教師型探索政策であるSEMIを紹介する。
SEMIの有効性は、オブジェクト操作やオーディオ視覚ゲームなど、様々なベンチマーク環境で実証されている。
- 参考スコア(独自算出の注目度): 18.990113883318564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient exploration is a long-standing problem in reinforcement learning
since extrinsic rewards are usually sparse or missing. A popular solution to
this issue is to feed an agent with novelty signals as intrinsic rewards. In
this work, we introduce SEMI, a self-supervised exploration policy by
incentivizing the agent to maximize a new novelty signal: multisensory
incongruity, which can be measured in two aspects, perception incongruity and
action incongruity. The former represents the misalignment of the multisensory
inputs, while the latter represents the variance of an agent's policies under
different sensory inputs. Specifically, an alignment predictor is learned to
detect whether multiple sensory inputs are aligned, the error of which is used
to measure perception incongruity. A policy model takes different combinations
of the multisensory observations as input and outputs actions for exploration.
The variance of actions is further used to measure action incongruity. Using
both incongruities as intrinsic rewards, SEMI allows an agent to learn skills
by exploring in a self-supervised manner without any external rewards. We
further show that SEMI is compatible with extrinsic rewards and it improves
sample efficiency of policy learning. The effectiveness of SEMI is demonstrated
across a variety of benchmark environments including object manipulation and
audio-visual games.
- Abstract(参考訳): 効率の良い探索は強化学習における長年の課題である。
この問題に対する一般的な解決策は、新奇なシグナルを内在的な報酬としてエージェントに与えることである。
本研究では,エージェントに刺激を与えて新たな新規性信号,多感覚不整合を最大化する自己教師型探索政策であるSEMIを紹介する。
前者は多感覚入力の不一致を表し、後者は異なる感覚入力の下でのエージェントのポリシーの分散を表す。
具体的には、アライメント予測器を用いて、複数の感覚入力がアライメントされているかどうかを検知し、その誤差を知覚の不一致を測定する。
政策モデルは、多感覚観測の異なる組み合わせを入力として、探索のためのアクションを出力する。
アクションのばらつきは、アクションの不整合を測定するためにさらに使用される。
両者を内在的な報酬として使用することで、エージェントは外部の報酬なしで自己監督的な方法でスキルを学習することができる。
さらに、SEMIは外部報酬と互換性があることを示し、政策学習のサンプル効率を向上させる。
SEMIの有効性は、オブジェクト操作やオーディオ視覚ゲームなど、様々なベンチマーク環境で実証されている。
関連論文リスト
- Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents [26.075152706845454]
マルチエージェントの盗賊は、各腕からの報酬は固定分布に従うと仮定する。
報酬は各エージェントの 環境に対する感受性に依存する
UCBスタイルのアルゴリズムMin-Widthを導入し、多様なエージェントから情報を集約する。
論文 参考訳(メタデータ) (2024-08-06T18:56:29Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery [12.277005054008017]
この作業はIEEEに提出され、出版される可能性がある。著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。
textbfContrastive textbfmulti-objective textbfSkill textbfDiscovery textbf(ComSD)を提案する。
論文 参考訳(メタデータ) (2023-09-29T12:53:41Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。