論文の概要: Unveiling Options with Neural Decomposition
- arxiv url: http://arxiv.org/abs/2410.11262v1
- Date: Tue, 15 Oct 2024 04:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:39.876916
- Title: Unveiling Options with Neural Decomposition
- Title(参考訳): 神経解離による解離オプション
- Authors: Mahdi Alikhasi, Levi H. S. Lelis,
- Abstract要約: 強化学習では、エージェントは特定のタスクに対するポリシーを学ぶが、その知識を関連するタスクに一般化することができない。
本稿では、マルコフ決定プロセスのポリシーを復号化することで、この制限に対処するアルゴリズムを提案する。
それぞれのサブポリティシを、さまざまなイテレーションのタイムループでラップすることで、オプションにします。
- 参考スコア(独自算出の注目度): 11.975013522386538
- License:
- Abstract: In reinforcement learning, agents often learn policies for specific tasks without the ability to generalize this knowledge to related tasks. This paper introduces an algorithm that attempts to address this limitation by decomposing neural networks encoding policies for Markov Decision Processes into reusable sub-policies, which are used to synthesize temporally extended actions, or options. We consider neural networks with piecewise linear activation functions, so that they can be mapped to an equivalent tree that is similar to oblique decision trees. Since each node in such a tree serves as a function of the input of the tree, each sub-tree is a sub-policy of the main policy. We turn each of these sub-policies into options by wrapping it with while-loops of varied number of iterations. Given the large number of options, we propose a selection mechanism based on minimizing the Levin loss for a uniform policy on these options. Empirical results in two grid-world domains where exploration can be difficult confirm that our method can identify useful options, thereby accelerating the learning process on similar but different tasks.
- Abstract(参考訳): 強化学習では、エージェントは特定のタスクに対するポリシーを学ぶが、その知識を関連するタスクに一般化することができない。
本稿では、マルコフ決定プロセスのポリシーを符号化したニューラルネットワークを、時間的に拡張されたアクションやオプションを合成する再利用可能なサブ政治に分解することで、この制限に対処するアルゴリズムを提案する。
我々は,一方向線形活性化関数を持つニューラルネットワークを,斜め決定木に類似した等価な木にマッピングできると考えている。
このようなツリーの各ノードはツリーの入力の関数として機能するため、各サブツリーはメインポリシーのサブポリシーである。
さまざまなイテレーションのタイムループをラップすることで、これらのサブポリティケーションをオプションにします。
選択肢の多さを考慮し、これらの選択肢に対する一様ポリシーに対するレビン損失を最小限に抑えた選択機構を提案する。
探索が難しい2つのグリッドワールド領域における実証的な結果から,本手法が有用な選択肢を識別し,類似の異なるタスクにおける学習プロセスの高速化を図っている。
関連論文リスト
- Reinforcement Learning for Node Selection in Branch-and-Bound [52.2648997215667]
現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。
孤立ノードではなく木の状態全体を考慮しながら強化学習(RL)を用いる新しいシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-09-29T19:55:56Z) - TreeDQN: Learning to minimize Branch-and-Bound tree [78.52895577861327]
Branch-and-Boundは、Mixed Linear Programsという形で最適化タスクを解決するための便利なアプローチである。
解法の効率は、分割する変数を選択するのに使用される分岐に依存する。
分岐を効率的に学習できる強化学習法を提案する。
論文 参考訳(メタデータ) (2023-06-09T14:01:26Z) - LEURN: Learning Explainable Univariate Rules with Neural Networks [0.0]
LEURNは、一変量決定ルールを学ぶニューラルネットワークアーキテクチャである。
LEURNは、分類と回帰問題のための30のデータセットにわたる最先端のメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-27T06:34:42Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - E2E-FS: An End-to-End Feature Selection Method for Neural Networks [0.3222802562733786]
EndtoEnd Feature Selection (E2FS) と呼ばれる新しい選択アルゴリズムを提案する。
アルゴリズムは,ラッソ法と同様,勾配降下法を用いて解く。
厳しい制約はあるものの、実験結果は、このアルゴリズムがどんな学習モデルでも利用できることを示している。
論文 参考訳(メタデータ) (2020-12-14T16:19:25Z) - Learning Binary Decision Trees by Argmin Differentiation [34.9154848754842]
ダウンストリームタスクのためにデータを分割するバイナリ決定木を学びます。
離散パラメータの混合整数プログラムを緩和する。
我々は、前方と後方のパスを効率的に計算するアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-10-09T15:11:28Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z) - Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。
本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文 参考訳(メタデータ) (2020-02-11T02:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。