論文の概要: Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.12985v1
- Date: Mon, 25 Oct 2021 14:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:11:50.189547
- Title: Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning
- Title(参考訳): 多目的強化学習のためのゴール対応クロスエントロピー
- Authors: Kibeom Kim, Min Whoo Lee, Yoonsung Kim, Je-Hwan Ryu, Minsu Lee,
Byoung-Tak Zhang
- Abstract要約: 本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
- 参考スコア(独自算出の注目度): 15.33496710690063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in a multi-target environment without prior knowledge about the
targets requires a large amount of samples and makes generalization difficult.
To solve this problem, it is important to be able to discriminate targets
through semantic understanding. In this paper, we propose goal-aware
cross-entropy (GACE) loss, that can be utilized in a self-supervised way using
auto-labeled goal states alongside reinforcement learning. Based on the loss,
we then devise goal-discriminative attention networks (GDAN) which utilize the
goal-relevant information to focus on the given instruction. We evaluate the
proposed methods on visual navigation and robot arm manipulation tasks with
multi-target environments and show that GDAN outperforms the state-of-the-art
methods in terms of task success ratio, sample efficiency, and generalization.
Additionally, qualitative analyses demonstrate that our proposed method can
help the agent become aware of and focus on the given instruction clearly,
promoting goal-directed behavior.
- Abstract(参考訳): 対象に関する事前知識のないマルチターゲット環境で学習するには,大量のサンプルが必要となるため,一般化が困難になる。
この問題を解決するには、意味理解を通じて目標を判別することが重要である。
本稿では,強化学習と共に自動ラベルされた目標状態を用いて自己教師あり方式で活用できる目標認識クロスエントロピー(gace)損失を提案する。
この損失に基づいて、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
マルチターゲット環境下での視覚ナビゲーションとロボットアーム操作タスクに関する提案手法を評価し,タスク成功率,サンプル効率,一般化の観点から,GDANが最先端の手法より優れていることを示す。
さらに質的分析により,提案手法はエージェントが与えられた指示を明確に認識し,目標指向行動を促進するのに役立つことを示した。
関連論文リスト
- CQM: Curriculum Reinforcement Learning with a Quantized World Model [30.21954044028645]
本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
論文 参考訳(メタデータ) (2023-10-26T11:50:58Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。