論文の概要: R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models
- arxiv url: http://arxiv.org/abs/2409.14216v1
- Date: Sat, 21 Sep 2024 18:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:37:15.910801
- Title: R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models
- Title(参考訳): R-AIF: アクティブ推論と世界モデルを持つ画素からスパース・リワードロボットタスクを解く
- Authors: Viet Dung Nguyen, Zhizhuo Yang, Christopher L. Buckley, Alexander Ororbia,
- Abstract要約: 我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 50.19174067263255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although research has produced promising results demonstrating the utility of active inference (AIF) in Markov decision processes (MDPs), there is relatively less work that builds AIF models in the context of environments and problems that take the form of partially observable Markov decision processes (POMDPs). In POMDP scenarios, the agent must infer the unobserved environmental state from raw sensory observations, e.g., pixels in an image. Additionally, less work exists in examining the most difficult form of POMDP-centered control: continuous action space POMDPs under sparse reward signals. In this work, we address issues facing the AIF modeling paradigm by introducing novel prior preference learning techniques and self-revision schedules to help the agent excel in sparse-reward, continuous action, goal-based robotic control POMDP environments. Empirically, we show that our agents offer improved performance over state-of-the-art models in terms of cumulative rewards, relative stability, and success rate. The code in support of this work can be found at https://github.com/NACLab/robust-active-inference.
- Abstract(参考訳): マルコフ決定プロセス(MDP)におけるアクティブ推論(AIF)の有用性を示す有望な結果が得られたが、部分的に観測可能なマルコフ決定プロセス(PMMDP)の形式をとる環境や問題においてAIFモデルを構築する作業は比較的少ない。
POMDPのシナリオでは、エージェントは、画像中のピクセルなどの生の知覚観測から、観測されていない環境状態を推測しなければならない。
加えて、POMDP中心制御の最も難しい形態である、疎い報酬信号の下での連続的な作用空間POMDPを調べる際には、より少ない作業が存在する。
本研究では、エージェントがスパース・リワード、継続的なアクション、目標に基づくロボット制御POMDP環境において、新しい優先学習手法と自己修正スケジュールを導入することでAIFモデリングパラダイムに直面する課題に対処する。
実験により,我々のエージェントは, 累積報酬, 相対安定性, 成功率の観点から, 最先端モデルよりも優れた性能を提供することを示した。
この作業をサポートするコードはhttps://github.com/NACLab/robust-active-inferenceにある。
関連論文リスト
- Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - Act-Then-Measure: Reinforcement Learning for Partially Observable
Environments with Active Measuring [4.033107207078282]
我々はマルコフ決定プロセス(MDP)について検討し、エージェントはいつどのように情報を集めるかを直接制御する。
これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。
この仮定に従うと、ポリシー時間が短くなり、計算によって生じる性能損失の限界が証明される。
論文 参考訳(メタデータ) (2023-03-14T23:22:32Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。