論文の概要: Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2309.03651v1
- Date: Thu, 7 Sep 2023 11:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:18:04.636262
- Title: Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments
- Title(参考訳): グリッド型強化学習環境における一般化・解釈可能な知識の学習
- Authors: Manuel Eberhardinger, Johannes Maucher, Setareh Maghsudi
- Abstract要約: 本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
- 参考スコア(独自算出の注目度): 5.217870815854702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the interactions of agents trained with deep reinforcement
learning is crucial for deploying agents in games or the real world. In the
former, unreasonable actions confuse players. In the latter, that effect is
even more significant, as unexpected behavior cause accidents with potentially
grave and long-lasting consequences for the involved individuals. In this work,
we propose using program synthesis to imitate reinforcement learning policies
after seeing a trajectory of the action sequence. Programs have the advantage
that they are inherently interpretable and verifiable for correctness. We adapt
the state-of-the-art program synthesis system DreamCoder for learning concepts
in grid-based environments, specifically, a navigation task and two miniature
versions of Atari games, Space Invaders and Asterix. By inspecting the
generated libraries, we can make inferences about the concepts the black-box
agent has learned and better understand the agent's behavior. We achieve the
same by visualizing the agent's decision-making process for the imitated
sequences. We evaluate our approach with different types of program
synthesizers based on a search-only method, a neural-guided search, and a
language model fine-tuned on code.
- Abstract(参考訳): 深層強化学習で訓練されたエージェントの相互作用を理解することは、ゲームや現実世界にエージェントを配置するのに重要である。
前者の場合、不合理な行動はプレイヤーを混乱させる。
後者では、予期せぬ行動が事故を引き起こし、関連する個人に重大な長期的影響をもたらすため、この効果はさらに重要である。
本研究では,行動系列の軌跡を見た後,強化学習方針を模倣するプログラム合成手法を提案する。
プログラムは本質的に解釈可能であり、正確性を検証するという利点がある。
本研究では,現在最先端のプログラム合成システムDreamCoderをグリッドベースの環境,特にナビゲーションタスクと,Atariゲーム,Space Invaders,Asterixの2つのミニバージョンで学習する。
生成されたライブラリを検査することで、ブラックボックスエージェントが学んだ概念を推論し、エージェントの振る舞いをよりよく理解することができる。
我々は、模倣されたシーケンスに対するエージェントの決定過程を可視化することで、同じことを実現できる。
提案手法は,検索専用手法,ニューラル誘導探索,言語モデルに基づいて,様々な種類のプログラムシンセサイザーを用いて評価する。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - DeepSym: Deep Symbol Generation and Rule Learning from Unsupervised
Continuous Robot Interaction for Planning [1.3854111346209868]
ロボットアームハンドシステムは、プッシュとスタックアクションから「ロータブル」、「インサータブル」、「ラーガー・サン」と解釈できるシンボルを学習する。
本システムは,ロボットアームハンドシステムにおいて,その動作から「回転可能」,「不可能」,「大きい」と解釈可能なシンボルを学習する物理に基づく3次元シミュレーション環境で検証する。
論文 参考訳(メタデータ) (2020-12-04T11:26:06Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Meta-learning curiosity algorithms [26.186627089223624]
我々はメタラーニングの1つとして好奇行動を生成する問題を定式化する。
私たちのリッチなプログラム言語は、ニューラルネットワークとバッファ、最も近いモジュール、カスタムロス関数といった他のビルディングブロックを結合します。
画像入力,アクロボット,月面着陸機,アリ,ホッパーを備えたグリッドナビゲーションと異なる領域において,人間の設計したキュリオシティアルゴリズムと同等以上の性能を持つ2つの新しいキュリオシティアルゴリズムが発見された。
論文 参考訳(メタデータ) (2020-03-11T14:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。