論文の概要: GLIB: Efficient Exploration for Relational Model-Based Reinforcement
Learning via Goal-Literal Babbling
- arxiv url: http://arxiv.org/abs/2001.08299v3
- Date: Tue, 8 Dec 2020 19:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:05:22.007138
- Title: GLIB: Efficient Exploration for Relational Model-Based Reinforcement
Learning via Goal-Literal Babbling
- Title(参考訳): GLIB:ゴール-リテラルバブリングによる関係モデルに基づく強化学習のための効率的な探索
- Authors: Rohan Chitnis, Tom Silver, Joshua Tenenbaum, Leslie Pack Kaelbling,
Tomas Lozano-Perez
- Abstract要約: 関係モデルに基づく強化学習環境における遷移モデル学習のための効率的な探索の課題に対処する。
人間の好奇心に触発されて,そのような問題に対するシンプルで一般的な探索法であるGLIBを提案する。
GLIBによる探索が基底真理モデルにほぼ確実に収束することを示す理論的保証を提供する。
- 参考スコア(独自算出の注目度): 28.810016446102892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of efficient exploration for transition model learning
in the relational model-based reinforcement learning setting without extrinsic
goals or rewards. Inspired by human curiosity, we propose goal-literal babbling
(GLIB), a simple and general method for exploration in such problems. GLIB
samples relational conjunctive goals that can be understood as specific,
targeted effects that the agent would like to achieve in the world, and plans
to achieve these goals using the transition model being learned. We provide
theoretical guarantees showing that exploration with GLIB will converge almost
surely to the ground truth model. Experimentally, we find GLIB to strongly
outperform existing methods in both prediction and planning on a range of
tasks, encompassing standard PDDL and PPDDL planning benchmarks and a robotic
manipulation task implemented in the PyBullet physics simulator. Video:
https://youtu.be/F6lmrPT6TOY Code: https://git.io/JIsTB
- Abstract(参考訳): 本稿では,リレーショナルモデルに基づく強化学習環境における遷移モデル学習の効率的探索の課題に対処する。
人間の好奇心に触発されて,そのような問題に対するシンプルで一般的な探索法であるGLIBを提案する。
GLIBは、エージェントが世界で達成したいと思う特定の標的効果として理解できる関係接続目標をサンプリングし、学習される遷移モデルを用いてこれらの目標を達成する計画である。
我々は,GLIBによる探索が基底真理モデルにほぼ確実に収束することを示す理論的保証を提供する。
実験により,標準的なPDDLおよびPDDL計画ベンチマークとPyBullet物理シミュレータに実装されたロボット操作タスクを含む,様々なタスクの予測と計画において,既存手法よりも高い性能を発揮することが確認された。
ビデオ:https://youtu.be/F6lmrPT6TOYコード:https://git.io/JIsTB
関連論文リスト
- Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。
MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。
その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-11-03T01:35:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。