論文の概要: Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.08369v1
- Date: Wed, 15 Dec 2021 12:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 11:11:11.768376
- Title: Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning
- Title(参考訳): 強化学習における一般化のための特徴認識型反復モジュール
- Authors: Wilka Carvalho, Andrew Lampinen, Kyriacos Nikiforou, Felix Hill,
Murray Shanahan
- Abstract要約: 3つの異なるタスク構造にまたがる一般化について研究する。
私たちのタスクでは、個々のオブジェクトの動きを認識するための表現、3Dオブジェクトへのナビゲーション、オブジェクト設定をナビゲートするための表現に対応しています。
本稿では,複数の比較的小さなリカレントモジュールにまたがって知覚スキーマが分散される状態表現を学習するFeature Attending Recurrent Modules (FARM)を提案する。
- 参考スコア(独自算出の注目度): 15.625557720856616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (Deep RL) has recently seen significant progress
in developing algorithms for generalization. However, most algorithms target a
single type of generalization setting. In this work, we study generalization
across three disparate task structures: (a) tasks composed of spatial and
temporal compositions of regularly occurring object motions; (b) tasks composed
of active perception of and navigation towards regularly occurring 3D objects;
and (c) tasks composed of remembering goal-information over sequences of
regularly occurring object-configurations. These diverse task structures all
share an underlying idea of compositionality: task completion always involves
combining recurring segments of task-oriented perception and behavior. We
hypothesize that an agent can generalize within a task structure if it can
discover representations that capture these recurring task-segments. For our
tasks, this corresponds to representations for recognizing individual object
motions, for navigation towards 3D objects, and for navigating through
object-configurations. Taking inspiration from cognitive science, we term
representations for recurring segments of an agent's experience, "perceptual
schemas". We propose Feature Attending Recurrent Modules (FARM), which learns a
state representation where perceptual schemas are distributed across multiple,
relatively small recurrent modules. We compare FARM to recurrent architectures
that leverage spatial attention, which reduces observation features to a
weighted average over spatial positions. Our experiments indicate that our
feature-attention mechanism better enables FARM to generalize across the
diverse object-centric domains we study.
- Abstract(参考訳): 深部強化学習(Deep RL)は近年,一般化のためのアルゴリズムの開発において大きな進歩を遂げている。
しかし、ほとんどのアルゴリズムは単一の一般化設定をターゲットにしている。
本研究では,3つの異なるタスク構造における一般化について検討する。
a) 定期的に発生する物体の動きの空間的及び時間的構成からなる作業
(b)定期的に発生する3dオブジェクトに対する積極的な知覚及びナビゲーションからなるタスク
c) 定期的に発生するオブジェクト構成のシーケンス上で目標情報を記憶するタスク。
タスク補完は常に、タスク指向の知覚と振舞いの繰り返しセグメントを組み合わせて行われる。
繰り返し発生するタスクセグメントをキャプチャする表現を発見できれば,エージェントはタスク構造内で一般化できる,という仮説を立てる。
私たちのタスクでは、個々のオブジェクトの動きを認識する表現、3dオブジェクトへのナビゲーション、オブジェクト構成をナビゲートする表現に対応しています。
認知科学から着想を得て,エージェントの経験の反復的な部分の表現を「知覚的スキーマ」と呼ぶ。
本稿では,複数の比較的小さなリカレントモジュールにまたがって知覚スキーマが分散される状態表現を学習するFeature Attending Recurrent Modules (FARM)を提案する。
FARMと空間的注意を生かした繰り返しアーキテクチャを比較し,空間的位置の重み付き平均値に対する観測特性の低減を図る。
実験の結果,我々の研究する多様なオブジェクト中心ドメインにまたがって,farmの汎用性が向上することが示唆された。
関連論文リスト
- DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Self-supervised Visual Reinforcement Learning with Object-centric
Representations [11.786249372283562]
対象中心の表現をモジュラーおよび構造化された観測空間として用いることを提案する。
目標条件付きアテンションポリシーと組み合わせた表現の構造は,自律エージェントが有用なスキルを発見し,学習する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-11-29T14:55:09Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z) - Deep Sets for Generalization in RL [15.092941080981706]
本稿では,言語指導型強化学習エージェントの報酬関数とポリシーアーキテクチャの設計におけるオブジェクト指向表現の符号化について検討する。
自然言語の目標を目標とするエージェントがオブジェクトをナビゲートし、対話する2Dプロシージャ生成の世界において、これらのアーキテクチャは分布外目標に対して強力な一般化能力を示すことを示す。
論文 参考訳(メタデータ) (2020-03-20T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。