論文の概要: Learning to Generate All Feasible Actions
- arxiv url: http://arxiv.org/abs/2301.11461v1
- Date: Thu, 26 Jan 2023 23:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:00:05.958530
- Title: Learning to Generate All Feasible Actions
- Title(参考訳): 実現可能なすべての行動を生み出すための学習
- Authors: Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza,
Marco Caccamo, Alberto L. Sangiovanni-Vincentelli
- Abstract要約: 我々は、アクターにすべての実行可能なアクションを生成するよう訓練することで、再利用可能な、転送可能なスキルを学ぶ。
訓練されたアクターは実行可能なアクションを提案し、その中で最適なアクションを特定のタスクに従って選択することができる。
カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて,任意のf-分岐に対する最適化目標を導出する。
- 参考スコア(独自算出の注目度): 4.250219822975011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several machine learning (ML) applications are characterized by searching for
an optimal solution to a complex task. The search space for this optimal
solution is often very large, so large in fact that this optimal solution is
often not computable. Part of the problem is that many candidate solutions
found via ML are actually infeasible and have to be discarded. Restricting the
search space to only the feasible solution candidates simplifies finding an
optimal solution for the tasks. Further, the set of feasible solutions could be
re-used in multiple problems characterized by different tasks. In particular,
we observe that complex tasks can be decomposed into subtasks and corresponding
skills. We propose to learn a reusable and transferable skill by training an
actor to generate all feasible actions. The trained actor can then propose
feasible actions, among which an optimal one can be chosen according to a
specific task. The actor is trained by interpreting the feasibility of each
action as a target distribution. The training procedure minimizes a divergence
of the actor's output distribution to this target. We derive the general
optimization target for arbitrary f-divergences using a combination of kernel
density estimates, resampling, and importance sampling. We further utilize an
auxiliary critic to reduce the interactions with the environment. A preliminary
comparison to related strategies shows that our approach learns to visit all
the modes in the feasible action space, demonstrating the framework's potential
for learning skills that can be used in various downstream tasks.
- Abstract(参考訳): いくつかの機械学習(ML)アプリケーションは、複雑なタスクに対する最適解を探すことで特徴付けられる。
この最適解の探索空間は、しばしば非常に大きく、この最適解が計算不可能であるという事実が非常に大きい。
問題の一部は、mlで見つかる多くの候補ソリューションが実際には実現不可能であり、破棄されなければならないことである。
検索空間を実現可能な解候補のみに制限することは、タスクに最適な解を見つけることを単純化する。
さらに、実現可能な解の集合は、異なるタスクによって特徴づけられる複数の問題で再利用することができる。
特に,複雑なタスクをサブタスクとそれに対応するスキルに分解することができる。
我々は,アクタが実行可能なすべてのアクションを生成するようにトレーニングすることで,再利用可能で転送可能なスキルを学ぶことを提案する。
訓練されたアクターは実行可能なアクションを提案でき、その中に特定のタスクに応じて最適なアクションを選択することができる。
アクタは、各アクションの実行可能性を目標分布として解釈することで訓練される。
訓練手順は、この目標に対するアクターの出力分布の発散を最小限にする。
任意のf-divergencesに対する一般最適化ターゲットを,カーネル密度推定,再サンプリング,重要サンプリングの組み合わせを用いて導出する。
さらに,環境との相互作用を減らすために,補助的な批評家を利用する。
関連戦略に対する予備的な比較は,本手法が実現可能なアクション空間のすべてのモードに到達し,様々な下流タスクで使用できる学習スキルのフレームワークの可能性を示すことを示している。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。
マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。
本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文 参考訳(メタデータ) (2020-08-13T10:45:31Z) - Physarum Powered Differentiable Linear Programming Layers and
Applications [48.77235931652611]
一般線形プログラミング問題に対する効率的かつ微分可能な解法を提案する。
本稿では,ビデオセグメンテーションタスクとメタラーニングにおける問題解決手法について述べる。
論文 参考訳(メタデータ) (2020-04-30T01:50:37Z) - Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。
異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。
近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文 参考訳(メタデータ) (2019-12-30T08:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。