論文の概要: Learning to Generate All Feasible Actions
- arxiv url: http://arxiv.org/abs/2301.11461v2
- Date: Fri, 5 Jul 2024 13:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 03:22:23.517266
- Title: Learning to Generate All Feasible Actions
- Title(参考訳): すべての実行可能なアクションを生成するための学習
- Authors: Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli,
- Abstract要約: アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。
本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。
エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
- 参考スコア(独自算出の注目度): 4.333208181196761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern cyber-physical systems are becoming increasingly complex to model, thus motivating data-driven techniques such as reinforcement learning (RL) to find appropriate control agents. However, most systems are subject to hard constraints such as safety or operational bounds. Typically, to learn to satisfy these constraints, the agent must violate them systematically, which is computationally prohibitive in most systems. Recent efforts aim to utilize feasibility models that assess whether a proposed action is feasible to avoid applying the agent's infeasible action proposals to the system. However, these efforts focus on guaranteeing constraint satisfaction rather than the agent's learning efficiency. To improve the learning process, we introduce action mapping, a novel approach that divides the learning process into two steps: first learn feasibility and subsequently, the objective by mapping actions into the sets of feasible actions. This paper focuses on the feasibility part by learning to generate all feasible actions through self-supervised querying of the feasibility model. We train the agent by formulating the problem as a distribution matching problem and deriving gradient estimators for different divergences. Through an illustrative example, a robotic path planning scenario, and a robotic grasping simulation, we demonstrate the agent's proficiency in generating actions across disconnected feasible action sets. By addressing the feasibility step, this paper makes it possible to focus future work on the objective part of action mapping, paving the way for an RL framework that is both safe and efficient.
- Abstract(参考訳): 現代のサイバー物理システムは、モデリングの複雑さが増し、強化学習(RL)のようなデータ駆動技術による適切な制御エージェントの発見を動機付けている。
しかし、ほとんどのシステムは安全性や運用上の制約のような厳しい制約を受ける。
通常、これらの制約を満たすために、エージェントはそれらを体系的に違反しなければならない。
近年の取り組みは,提案した行動が実行可能かどうかを評価する実現可能性モデルを活用して,エージェントの実施不可能な行動提案をシステムに適用することを避けることを目的としている。
しかし、これらの取り組みは、エージェントの学習効率よりも制約満足度を保証することに重点を置いている。
学習プロセスを改善するために、我々は、学習プロセスを2つのステップに分割する新しいアプローチであるアクションマッピングを導入し、まず、実行可能性を学び、次に、アクションを実行可能なアクションのセットにマッピングすることで目的を定めます。
本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことにより、実現可能性部分に焦点を当てる。
分布マッチング問題として問題を定式化してエージェントを訓練し、異なる発散に対する勾配推定器を導出する。
実証的な例、ロボット経路計画シナリオ、ロボット把握シミュレーションを通じて、非接続可能な動作セット間でのアクション生成におけるエージェントの習熟度を実証する。
実現可能性のステップに対処することで、安全かつ効率的なRLフレームワークを実現するために、アクションマッピングの目的部分に将来の作業に集中することが可能となる。
関連論文リスト
- Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Failure-averse Active Learning for Physics-constrained Systems [7.701064815584088]
本研究では,システムを管理する暗黙の物理制約を考慮した,新しい能動的学習手法を開発した。
提案手法は, 対象モデルの分散を低減するために安全な領域を探索し, 制約の確率モデルを利用して探索可能な領域を拡張することを目的としている。
この方法は、Tsai-wu基準を用いた材料故障を考慮した複合胴体組立プロセスに適用され、明示的な故障領域の知識を必要とせず、ゼロフェイルを達成することができる。
論文 参考訳(メタデータ) (2021-10-27T14:01:03Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Scalable Reinforcement Learning Policies for Multi-Agent Control [29.42370205354368]
目標追跡のためのスケーラブルな制御ポリシーを学習するためのマルチエージェント強化学習(MARL)手法を開発した。
最大1000人の追従者による1000の目標追跡タスクの結果を示す。
論文 参考訳(メタデータ) (2020-11-16T16:11:12Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。