論文の概要: Understanding and Controlling a Maze-Solving Policy Network
- arxiv url: http://arxiv.org/abs/2310.08043v1
- Date: Thu, 12 Oct 2023 05:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:51:30.217195
- Title: Understanding and Controlling a Maze-Solving Policy Network
- Title(参考訳): Maze-Solving Policy Network の理解と制御
- Authors: Ulisse Mini, Peli Grietzer, Mrinank Sharma, Austin Meek, Monte
MacDiarmid, Alexander Matt Turner
- Abstract要約: 本研究は,迷路を目標正方形にナビゲートすることで,迷路を解決するための事前訓練された強化学習政策について検討する。
このネットワークは、複数のコンテキスト依存的な目標を追求し、これらの目標の1つに対応するネットワーク内の回路を特定する。
このネットワークには冗長で分散的で再ターゲティング可能な目標表現が含まれており、訓練された政策ネットワークにおけるゴール指向の性質に光を当てている。
- 参考スコア(独自算出の注目度): 44.19448448073822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To understand the goals and goal representations of AI systems, we carefully
study a pretrained reinforcement learning policy that solves mazes by
navigating to a range of target squares. We find this network pursues multiple
context-dependent goals, and we further identify circuits within the network
that correspond to one of these goals. In particular, we identified eleven
channels that track the location of the goal. By modifying these channels,
either with hand-designed interventions or by combining forward passes, we can
partially control the policy. We show that this network contains redundant,
distributed, and retargetable goal representations, shedding light on the
nature of goal-direction in trained policy networks.
- Abstract(参考訳): そこで我々は,AIシステムの目標と目標の表現を理解するために,迷路を解決するための事前訓練された強化学習ポリシーを慎重に研究する。
このネットワークは複数のコンテキスト依存目標を追求しており、これらの目標の1つに対応するネットワーク内の回路をさらに識別する。
特に、ゴールの位置を追跡する11のチャンネルを特定しました。
これらのチャネルを手作りの介入で変更するか、あるいは前方通行を組み合わせることで、ポリシーを部分的に制御できる。
このネットワークには冗長で分散した目標表現が含まれており、トレーニングされたポリシーネットワークにおける目標指向の性質に光を当てている。
関連論文リスト
- What Planning Problems Can A Relational Neural Network Solve? [91.53684831950612]
本稿では,計画問題のポリシーを表すリレーショナルニューラルネットワークの回路複雑性解析について述べる。
回路幅と深さの増大に関して,計画問題には3つの一般的なクラスが存在することを示す。
また、政策学習のためのニューラルネットワーク設計におけるこの分析の有用性についても解説する。
論文 参考訳(メタデータ) (2023-12-06T18:47:28Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph [21.260858893505183]
目標グラフ(GRG)を用いた新しい2層階層学習手法を提案する。
我々のGRGはディリクレカテゴリーのプロセスを通じて、ゴール空間におけるすべてのゴールの根底にある関係を捉えます。
実験の結果,我々のアプローチは未発見の環境と新しい目標の両方において優れた一般化を示すことがわかった。
論文 参考訳(メタデータ) (2021-03-01T23:21:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。