論文の概要: Inductive Generalization in Reinforcement Learning from Specifications
- arxiv url: http://arxiv.org/abs/2406.03651v1
- Date: Wed, 5 Jun 2024 23:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:55:13.489226
- Title: Inductive Generalization in Reinforcement Learning from Specifications
- Title(参考訳): 仕様からの強化学習における帰納的一般化
- Authors: Vignesh Subramanian, Rohit Kushwah, Subhajit Roy, Suguman Bansal,
- Abstract要約: 論理的仕様からRLの新しい帰納的一般化フレームワークを提案する。
我々は、帰納的タスクのインスタンスに対して、ゼロショット方式で適切に適合したポリシーを生成する、高階関数、ポリシジェネレータを学習する。
- 参考スコア(独自算出の注目度): 6.0251935428075125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel inductive generalization framework for RL from logical specifications. Many interesting tasks in RL environments have a natural inductive structure. These inductive tasks have similar overarching goals but they differ inductively in low-level predicates and distributions. We present a generalization procedure that leverages this inductive relationship to learn a higher-order function, a policy generator, that generates appropriately adapted policies for instances of an inductive task in a zero-shot manner. An evaluation of the proposed approach on a set of challenging control benchmarks demonstrates the promise of our framework in generalizing to unseen policies for long-horizon tasks.
- Abstract(参考訳): 論理的仕様からRLの新しい帰納的一般化フレームワークを提案する。
RL環境における多くの興味深いタスクは自然な帰納的構造を持つ。
これらの帰納的タスクは同様に全体的目標を持つが、低レベルの述語や分布において帰納的に異なる。
本稿では、この帰納的関係を利用して、帰納的タスクのインスタンスに対する適切なポリシーをゼロショットで生成する高階関数、ポリシジェネレータを学習する一般化手順を提案する。
提案手法を一組の制御ベンチマークで評価することにより,長期的タスクに対する見当たらないポリシーを一般化する上で,我々のフレームワークが約束することを示す。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - A Survey of Generalisation in Deep Reinforcement Learning [18.098133342169646]
深層強化学習の一般化は、展開時に目に見えない新しい状況に一般化するRLアルゴリズムを作ることを目的としている。
実世界のシナリオで強化学習アルゴリズムを展開するためには、これに取り組むことが不可欠です。
この調査は、この初期段階の分野の概要である。
論文 参考訳(メタデータ) (2021-11-18T16:53:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Refactoring Policy for Compositional Generalizability using
Self-Supervised Object Proposals [35.281026812837105]
構成的一般化性を持つ政策の学習方法について研究する。
本稿では,高水準の教員政策を,帰納的バイアスの強い一般化可能な学生政策に変換する2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2020-10-26T17:46:08Z) - Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文 参考訳(メタデータ) (2020-06-01T17:28:19Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。