論文の概要: Learning Generalizable Behavior via Visual Rewrite Rules
- arxiv url: http://arxiv.org/abs/2112.05218v1
- Date: Thu, 9 Dec 2021 21:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:55:39.418636
- Title: Learning Generalizable Behavior via Visual Rewrite Rules
- Title(参考訳): ビジュアルリライトルールによる一般化行動の学習
- Authors: Yiheng Xie, Mingxuan Li, Shangqun Yu, Michael Littman
- Abstract要約: 本稿では,ニューラルネットワークを使わずに環境動態を捉えるための新しい表現と学習手法を提案する。
これは、人のために設計されたゲームにおいて、アクションの効果が連続した視覚的観察における局所的な変化の形で知覚されることがしばしばあるという観察に由来する。
我々のアルゴリズムは、このような視覚的変化を抽出し、それらを「視覚的書き換え規則」と呼ぶ一連の行動依存記述規則(VRR)に凝縮するように設計されている。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Though deep reinforcement learning agents have achieved unprecedented success
in recent years, their learned policies can be brittle, failing to generalize
to even slight modifications of their environments or unfamiliar situations.
The black-box nature of the neural network learning dynamics makes it
impossible to audit trained deep agents and recover from such failures. In this
paper, we propose a novel representation and learning approach to capture
environment dynamics without using neural networks. It originates from the
observation that, in games designed for people, the effect of an action can
often be perceived in the form of local changes in consecutive visual
observations. Our algorithm is designed to extract such vision-based changes
and condense them into a set of action-dependent descriptive rules, which we
call ''visual rewrite rules'' (VRRs). We also present preliminary results from
a VRR agent that can explore, expand its rule set, and solve a game via
planning with its learned VRR world model. In several classical games, our
non-deep agent demonstrates superior performance, extreme sample efficiency,
and robust generalization ability compared with several mainstream deep agents.
- Abstract(参考訳): 深層強化学習エージェントは近年、前例のない成功を収めているが、その学習方針は不安定であり、環境のわずかな変更や不慣れな状況にまで一般化できない。
ニューラルネットワーク学習ダイナミクスのブラックボックスの性質は、訓練された深層エージェントを監査し、そのような障害から回復することを不可能にする。
本稿では,ニューラルネットワークを使わずに環境動態を捉えるための新しい表現と学習手法を提案する。
これは、人々のために設計されたゲームにおいて、アクションの効果が連続する視覚観察における局所的な変化の形で知覚されるという観察から生まれたものである。
我々のアルゴリズムは、このような視覚に基づく変化を抽出し、それらを一連のアクション依存記述規則に凝縮するように設計されている。
また,VRRのルールセットを探索し,拡張し,学習したVRRワールドモデルで計画することでゲームを解くことができるVRRエージェントの予備的な結果も提示する。
いくつかの古典的ゲームにおいて、我々の非ディープエージェントは、主要なディープエージェントと比較して優れた性能、極端なサンプル効率、堅牢な一般化能力を示す。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Degraded Polygons Raise Fundamental Questions of Neural Network Perception [5.423100066629618]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。