論文の概要: Learning to Generate All Feasible Actions
- arxiv url: http://arxiv.org/abs/2301.11461v1
- Date: Thu, 26 Jan 2023 23:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:00:05.958530
- Title: Learning to Generate All Feasible Actions
- Title(参考訳): 実現可能なすべての行動を生み出すための学習
- Authors: Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza,
Marco Caccamo, Alberto L. Sangiovanni-Vincentelli
- Abstract要約: 我々は、アクターにすべての実行可能なアクションを生成するよう訓練することで、再利用可能な、転送可能なスキルを学ぶ。
訓練されたアクターは実行可能なアクションを提案し、その中で最適なアクションを特定のタスクに従って選択することができる。
カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて,任意のf-分岐に対する最適化目標を導出する。
- 参考スコア(独自算出の注目度): 4.250219822975011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several machine learning (ML) applications are characterized by searching for
an optimal solution to a complex task. The search space for this optimal
solution is often very large, so large in fact that this optimal solution is
often not computable. Part of the problem is that many candidate solutions
found via ML are actually infeasible and have to be discarded. Restricting the
search space to only the feasible solution candidates simplifies finding an
optimal solution for the tasks. Further, the set of feasible solutions could be
re-used in multiple problems characterized by different tasks. In particular,
we observe that complex tasks can be decomposed into subtasks and corresponding
skills. We propose to learn a reusable and transferable skill by training an
actor to generate all feasible actions. The trained actor can then propose
feasible actions, among which an optimal one can be chosen according to a
specific task. The actor is trained by interpreting the feasibility of each
action as a target distribution. The training procedure minimizes a divergence
of the actor's output distribution to this target. We derive the general
optimization target for arbitrary f-divergences using a combination of kernel
density estimates, resampling, and importance sampling. We further utilize an
auxiliary critic to reduce the interactions with the environment. A preliminary
comparison to related strategies shows that our approach learns to visit all
the modes in the feasible action space, demonstrating the framework's potential
for learning skills that can be used in various downstream tasks.
- Abstract(参考訳): いくつかの機械学習(ML)アプリケーションは、複雑なタスクに対する最適解を探すことで特徴付けられる。
この最適解の探索空間は、しばしば非常に大きく、この最適解が計算不可能であるという事実が非常に大きい。
問題の一部は、mlで見つかる多くの候補ソリューションが実際には実現不可能であり、破棄されなければならないことである。
検索空間を実現可能な解候補のみに制限することは、タスクに最適な解を見つけることを単純化する。
さらに、実現可能な解の集合は、異なるタスクによって特徴づけられる複数の問題で再利用することができる。
特に,複雑なタスクをサブタスクとそれに対応するスキルに分解することができる。
我々は,アクタが実行可能なすべてのアクションを生成するようにトレーニングすることで,再利用可能で転送可能なスキルを学ぶことを提案する。
訓練されたアクターは実行可能なアクションを提案でき、その中に特定のタスクに応じて最適なアクションを選択することができる。
アクタは、各アクションの実行可能性を目標分布として解釈することで訓練される。
訓練手順は、この目標に対するアクターの出力分布の発散を最小限にする。
任意のf-divergencesに対する一般最適化ターゲットを,カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて導出する。
さらに,環境との相互作用を減らすために,補助的な批評家を利用する。
関連戦略に対する予備的な比較は,本手法が実現可能なアクション空間のすべてのモードに到達し,様々な下流タスクで使用できる学習スキルのフレームワークの可能性を示すことを示している。
関連論文リスト
- Bridging the gap between Learning-to-plan, Motion Primitives and Safe Reinforcement Learning [20.158498233576143]
キノダイナミック制約の下での軌道計画は、高度なロボティクス応用の基礎となる。
キノダイナミックプランニングの最近の進歩は、複雑な制約の下で複雑な動きを学習・計画技術が生成できることを実証している。
本稿では,学習から計画までの手法と強化学習を組み合わせることで,動作プリミティブのブラックボックス学習と最適化の新たな統合を実現する。
論文 参考訳(メタデータ) (2024-08-26T07:44:53Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Failure-averse Active Learning for Physics-constrained Systems [7.701064815584088]
本研究では,システムを管理する暗黙の物理制約を考慮した,新しい能動的学習手法を開発した。
提案手法は, 対象モデルの分散を低減するために安全な領域を探索し, 制約の確率モデルを利用して探索可能な領域を拡張することを目的としている。
この方法は、Tsai-wu基準を用いた材料故障を考慮した複合胴体組立プロセスに適用され、明示的な故障領域の知識を必要とせず、ゼロフェイルを達成することができる。
論文 参考訳(メタデータ) (2021-10-27T14:01:03Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。