論文の概要: Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2309.03651v1
- Date: Thu, 7 Sep 2023 11:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:18:04.636262
- Title: Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments
- Title(参考訳): グリッド型強化学習環境における一般化・解釈可能な知識の学習
- Authors: Manuel Eberhardinger, Johannes Maucher, Setareh Maghsudi
- Abstract要約: 本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
- 参考スコア(独自算出の注目度): 5.217870815854702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the interactions of agents trained with deep reinforcement
learning is crucial for deploying agents in games or the real world. In the
former, unreasonable actions confuse players. In the latter, that effect is
even more significant, as unexpected behavior cause accidents with potentially
grave and long-lasting consequences for the involved individuals. In this work,
we propose using program synthesis to imitate reinforcement learning policies
after seeing a trajectory of the action sequence. Programs have the advantage
that they are inherently interpretable and verifiable for correctness. We adapt
the state-of-the-art program synthesis system DreamCoder for learning concepts
in grid-based environments, specifically, a navigation task and two miniature
versions of Atari games, Space Invaders and Asterix. By inspecting the
generated libraries, we can make inferences about the concepts the black-box
agent has learned and better understand the agent's behavior. We achieve the
same by visualizing the agent's decision-making process for the imitated
sequences. We evaluate our approach with different types of program
synthesizers based on a search-only method, a neural-guided search, and a
language model fine-tuned on code.
- Abstract(参考訳): 深層強化学習で訓練されたエージェントの相互作用を理解することは、ゲームや現実世界にエージェントを配置するのに重要である。
前者の場合、不合理な行動はプレイヤーを混乱させる。
後者では、予期せぬ行動が事故を引き起こし、関連する個人に重大な長期的影響をもたらすため、この効果はさらに重要である。
本研究では,行動系列の軌跡を見た後,強化学習方針を模倣するプログラム合成手法を提案する。
プログラムは本質的に解釈可能であり、正確性を検証するという利点がある。
本研究では,現在最先端のプログラム合成システムDreamCoderをグリッドベースの環境,特にナビゲーションタスクと,Atariゲーム,Space Invaders,Asterixの2つのミニバージョンで学習する。
生成されたライブラリを検査することで、ブラックボックスエージェントが学んだ概念を推論し、エージェントの振る舞いをよりよく理解することができる。
我々は、模倣されたシーケンスに対するエージェントの決定過程を可視化することで、同じことを実現できる。
提案手法は,検索専用手法,ニューラル誘導探索,言語モデルに基づいて,様々な種類のプログラムシンセサイザーを用いて評価する。
関連論文リスト
- Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - DeepSym: Deep Symbol Generation and Rule Learning from Unsupervised
Continuous Robot Interaction for Planning [1.3854111346209868]
ロボットアームハンドシステムは、プッシュとスタックアクションから「ロータブル」、「インサータブル」、「ラーガー・サン」と解釈できるシンボルを学習する。
本システムは,ロボットアームハンドシステムにおいて,その動作から「回転可能」,「不可能」,「大きい」と解釈可能なシンボルを学習する物理に基づく3次元シミュレーション環境で検証する。
論文 参考訳(メタデータ) (2020-12-04T11:26:06Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Meta-learning curiosity algorithms [26.186627089223624]
我々はメタラーニングの1つとして好奇行動を生成する問題を定式化する。
私たちのリッチなプログラム言語は、ニューラルネットワークとバッファ、最も近いモジュール、カスタムロス関数といった他のビルディングブロックを結合します。
画像入力,アクロボット,月面着陸機,アリ,ホッパーを備えたグリッドナビゲーションと異なる領域において,人間の設計したキュリオシティアルゴリズムと同等以上の性能を持つ2つの新しいキュリオシティアルゴリズムが発見された。
論文 参考訳(メタデータ) (2020-03-11T14:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。