論文の概要: Code Models are Zero-shot Precondition Reasoners
- arxiv url: http://arxiv.org/abs/2311.09601v1
- Date: Thu, 16 Nov 2023 06:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:11:24.817673
- Title: Code Models are Zero-shot Precondition Reasoners
- Title(参考訳): コードモデルはゼロショットの前提条件です
- Authors: Lajanugen Logeswaran, Sungryull Sohn, Yiwei Lyu, Anthony Zhe Liu,
Dong-Ki Kim, Dongsub Shim, Moontae Lee, Honglak Lee
- Abstract要約: シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 83.8561159080672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the fundamental skills required for an agent acting in an environment
to complete tasks is the ability to understand what actions are plausible at
any given point. This work explores a novel use of code representations to
reason about action preconditions for sequential decision making tasks. Code
representations offer the flexibility to model procedural activities and
associated constraints as well as the ability to execute and verify constraint
satisfaction. Leveraging code representations, we extract action preconditions
from demonstration trajectories in a zero-shot manner using pre-trained code
models. Given these extracted preconditions, we propose a precondition-aware
action sampling strategy that ensures actions predicted by a policy are
consistent with preconditions. We demonstrate that the proposed approach
enhances the performance of few-shot policy learning approaches across
task-oriented dialog and embodied textworld benchmarks.
- Abstract(参考訳): エージェントがタスクを完了させるために必要な基本的なスキルの1つは、どの時点でどのアクションが実行可能かを理解する能力である。
本研究は,シーケンシャルな意思決定タスクのためのアクション前提条件を推論するために,コード表現の新たな利用を探求する。
コード表現は、手続きアクティビティと関連する制約をモデル化する柔軟性と、制約満足度の実行と検証を可能にする。
コード表現を活用することで,事前学習したコードモデルを用いて,実演軌跡からゼロショット方式で動作前条件を抽出する。
抽出した事前条件から,政策によって予測される行動が事前条件と整合していることを保証する事前条件対応行動サンプリング戦略を提案する。
提案手法は,タスク指向ダイアログと組込みテキストワールドベンチマークにまたがる数ショットのポリシー学習手法の性能を向上させる。
関連論文リスト
- Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Learning to Generate All Feasible Actions [4.333208181196761]
アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。
本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。
エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
論文 参考訳(メタデータ) (2023-01-26T23:15:51Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。