論文の概要: A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable
Settings
- arxiv url: http://arxiv.org/abs/2104.08492v1
- Date: Sat, 17 Apr 2021 09:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:03:15.549722
- Title: A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable
Settings
- Title(参考訳): 部分観測可能な深部RLの自己監督補助損失
- Authors: Eltayeb Ahmed, Luisa Zintgraf, Christian A. Schroeder de Witt and
Nicolas Usunier
- Abstract要約: 強力な実行エージェントが空間環境をナビゲートする必要がある環境での強化学習に補助的損失は有用である。
この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。
- 参考スコア(独自算出の注目度): 15.99292016541287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we explore an auxiliary loss useful for reinforcement learning
in environments where strong performing agents are required to be able to
navigate a spatial environment. The auxiliary loss proposed is to minimize the
classification error of a neural network classifier that predicts whether or
not a pair of states sampled from the agents current episode trajectory are in
order. The classifier takes as input a pair of states as well as the agent's
memory. The motivation for this auxiliary loss is that there is a strong
correlation with which of a pair of states is more recent in the agents episode
trajectory and which of the two states is spatially closer to the agent. Our
hypothesis is that learning features to answer this question encourages the
agent to learn and internalize in memory representations of states that
facilitate spatial reasoning. We tested this auxiliary loss on a navigation
task in a gridworld and achieved 9.6% increase in accumulative episode reward
compared to a strong baseline approach.
- Abstract(参考訳): 本研究では,高機能エージェントが空間環境をナビゲートするために必要となる環境において,強化学習に役立つ補助的損失を探索する。
提案する補助的損失は、エージェントの現在のエピソード軌跡からサンプリングされた一対の状態が整列しているかどうかを予測するニューラルネットワーク分類器の分類誤差を最小化することである。
分類器は、エージェントのメモリだけでなく、状態のペアとして入力される。
この補助的損失の動機は、エージェントエピソードの軌跡において2つの状態のどちらがより最近で、どちらの状態がエージェントに空間的に近いかと強い相関関係にあることである。
我々の仮説は、この問題に答えるための学習機能により、エージェントは空間的推論を促進する状態の記憶表現を学習し、内部化する。
この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。
関連論文リスト
- Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Agent-State Construction with Auxiliary Inputs [16.79847469127811]
本稿では,強化学習に補助的な入力を使用する方法の異なる方法を示す一連の例を示す。
これらの補助的な入力は、それ以外はエイリアスされるであろう観測を区別するために使用できることを示す。
このアプローチは、リカレントニューラルネットワークや切り離されたバックプロパゲーションといった最先端の手法を補完するものだ。
論文 参考訳(メタデータ) (2022-11-15T00:18:14Z) - Reinforcement Learning with Automated Auxiliary Loss Search [34.83123677004838]
補助的損失関数を用いたより良い表現を学習するための原理的,普遍的な手法を提案する。
具体的には、7.5×1020$の一般的な補助損失空間を定義し、効率的な進化的探索戦略を用いて空間を探索する。
その結果, 高次元(イメージ)と低次元(ベクター)の両タスクにおいて, 補助的損失が有意に改善されることが判明した。
論文 参考訳(メタデータ) (2022-10-12T09:24:53Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。