論文の概要: On Policy Reuse: An Expressive Language for Representing and Executing General Policies that Call Other Policies
- arxiv url: http://arxiv.org/abs/2403.16824v1
- Date: Mon, 25 Mar 2024 14:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.393506
- Title: On Policy Reuse: An Expressive Language for Representing and Executing General Policies that Call Other Policies
- Title(参考訳): 政策再利用について:他の政策を呼ぶ一般政策を表現・実行するための表現言語
- Authors: Blai Bonet, Dominik Drexler, Hector Geffner,
- Abstract要約: 単純だが強力な言語は、一連の数値的特徴に対して定義された規則の観点で導入された。
この言語の3つの拡張は、ポリシーとスケッチをより柔軟で再利用可能なものにすることを目的としている。
ポリシーとスケッチの結果として得られる言語の表現力は、いくつかの例で説明されている。
- 参考スコア(独自算出の注目度): 14.591568801450496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a simple but powerful language for expressing and learning general policies and problem decompositions (sketches) has been introduced in terms of rules defined over a set of Boolean and numerical features. In this work, we consider three extensions of this language aimed at making policies and sketches more flexible and reusable: internal memory states, as in finite state controllers; indexical features, whose values are a function of the state and a number of internal registers that can be loaded with objects; and modules that wrap up policies and sketches and allow them to call each other by passing parameters. In addition, unlike general policies that select state transitions rather than ground actions, the new language allows for the selection of such actions. The expressive power of the resulting language for policies and sketches is illustrated through a number of examples.
- Abstract(参考訳): 近年,一般政策や問題分解(スケッチ)を表現・学習するためのシンプルだが強力な言語が,ブール関数と数値関数の集合上で定義された規則によって導入された。
本研究では、ポリシーとスケッチをより柔軟かつ再利用可能なものにすることを目的とした、この言語の3つの拡張について検討する。内部メモリ状態、有限状態コントローラのように、値が状態の関数であるインデックス的特徴、オブジェクトをロード可能な複数の内部レジスタ、ポリシーとスケッチをラップし、パラメータを渡すことで相互に呼び出しを可能にするモジュール。
さらに、基底アクションではなく状態遷移を選択する一般的なポリシーとは異なり、新しい言語はそのようなアクションを選択することができる。
ポリシーとスケッチの結果として得られる言語の表現力は、いくつかの例で説明されている。
関連論文リスト
- Explainable Finite-Memory Policies for Partially Observable Markov Decision Processes [1.0499611180329806]
部分観測可能なマルコフ決定プロセス(POMDP)は、不確実性と部分観測可能性の下での意思決定の基本的なフレームワークである。
我々は、(i)解釈可能な形式主義と(ii)典型的にはより小さいサイズの両方において、そのようなポリシーの表現を提供し、より高い説明可能性をもたらす。
論文 参考訳(メタデータ) (2024-11-20T14:42:23Z) - PolicyLR: A Logic Representation For Privacy Policies [34.73520882451813]
我々は、プライバシポリシーの包括的な機械可読表現を提供する新しいパラダイムであるPolicyLRを提案する。
PolicyLRは、プライバシーポリシーを原子式の評価を用いて機械可読形式に変換する。
ポリシコンプライアンス,一貫性検出,プライバシ比較ショッピングという3つのプライバシタスクにおいて,ポリシLRを実証する。
論文 参考訳(メタデータ) (2024-08-27T07:27:16Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Natural Language Processing for Policymaking [34.93331735602826]
自然言語処理(NLP)は、テキストをポリシー作成に必要な重要な情報に解析するために計算ツールを使用する。
テキスト分類,トピックモデリング,イベント抽出,テキストスケーリングなど,NLPの一般的な手法を紹介する。
我々はNLPを政策立案に使用する際の潜在的な制限と倫理的懸念を強調した。
論文 参考訳(メタデータ) (2023-02-07T14:34:39Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - Expressing and Exploiting the Common Subgoal Structure of Classical
Planning Domains Using Sketches: Extended Version [17.63517562327928]
我々は、Bornt と Geffner が最近導入したポリシースケッチと呼ばれる問題分解を表現するために、単純だが強力な言語を使用します。
ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。
本稿では,SIW_Rアルゴリズムを用いて,SIWで解けない多くの計画領域を短時間で解けることを示す。
論文 参考訳(メタデータ) (2021-05-10T10:36:18Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。