論文の概要: Code Models are Zero-shot Precondition Reasoners
- arxiv url: http://arxiv.org/abs/2311.09601v1
- Date: Thu, 16 Nov 2023 06:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:11:24.817673
- Title: Code Models are Zero-shot Precondition Reasoners
- Title(参考訳): コードモデルはゼロショットの前提条件です
- Authors: Lajanugen Logeswaran, Sungryull Sohn, Yiwei Lyu, Anthony Zhe Liu,
Dong-Ki Kim, Dongsub Shim, Moontae Lee, Honglak Lee
- Abstract要約: シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 83.8561159080672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the fundamental skills required for an agent acting in an environment
to complete tasks is the ability to understand what actions are plausible at
any given point. This work explores a novel use of code representations to
reason about action preconditions for sequential decision making tasks. Code
representations offer the flexibility to model procedural activities and
associated constraints as well as the ability to execute and verify constraint
satisfaction. Leveraging code representations, we extract action preconditions
from demonstration trajectories in a zero-shot manner using pre-trained code
models. Given these extracted preconditions, we propose a precondition-aware
action sampling strategy that ensures actions predicted by a policy are
consistent with preconditions. We demonstrate that the proposed approach
enhances the performance of few-shot policy learning approaches across
task-oriented dialog and embodied textworld benchmarks.
- Abstract(参考訳): エージェントがタスクを完了させるために必要な基本的なスキルの1つは、どの時点でどのアクションが実行可能かを理解する能力である。
本研究は,シーケンシャルな意思決定タスクのためのアクション前提条件を推論するために,コード表現の新たな利用を探求する。
コード表現は、手続きアクティビティと関連する制約をモデル化する柔軟性と、制約満足度の実行と検証を可能にする。
コード表現を活用することで,事前学習したコードモデルを用いて,実演軌跡からゼロショット方式で動作前条件を抽出する。
抽出した事前条件から,政策によって予測される行動が事前条件と整合していることを保証する事前条件対応行動サンプリング戦略を提案する。
提案手法は,タスク指向ダイアログと組込みテキストワールドベンチマークにまたがる数ショットのポリシー学習手法の性能を向上させる。
関連論文リスト
- Task-conditioned adaptation of visual features in multi-task policy
learning [10.182418917501064]
幅広いタスクにうまく対処するには、根底にある意思決定戦略に柔軟に適応する必要があります。
本研究では,マルチタスク政策学習の文脈において,特定の下流タスクに規定された事前学習された大規模視覚モデルを適用する。
予め訓練された重み付けを微調整する必要のないタスク条件付きアダプタと、動作のクローンを訓練した単一ポリシーを組み合わせることで、複数のタスクに対処できるタスク条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2024-02-12T15:57:31Z) - An active learning method for solving competitive multi-agent
decision-making and control problems [1.4685355149711299]
対話エージェントの集団によって実行される私的戦略を再構築するための,能動的学習に基づくスキームを提案する。
学習手順を取り入れた外部オブザーバが、プライベートアクション・リアクションマッピングを通じてクエリを作成し、エージェントの反応を観察できるシナリオを想定する。
論文 参考訳(メタデータ) (2022-12-23T19:37:39Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。