Fugu-MT 論文翻訳(概要): Code Models are Zero-shot Precondition Reasoners

論文の概要: Code Models are Zero-shot Precondition Reasoners

arxiv url: http://arxiv.org/abs/2311.09601v1
Date: Thu, 16 Nov 2023 06:19:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 16:11:24.817673
Title: Code Models are Zero-shot Precondition Reasoners
Title（参考訳）: コードモデルはゼロショットの前提条件です
Authors: Lajanugen Logeswaran, Sungryull Sohn, Yiwei Lyu, Anthony Zhe Liu, Dong-Ki Kim, Dongsub Shim, Moontae Lee, Honglak Lee
Abstract要約: シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
参考スコア（独自算出の注目度）: 83.8561159080672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the fundamental skills required for an agent acting in an environment to complete tasks is the ability to understand what actions are plausible at any given point. This work explores a novel use of code representations to reason about action preconditions for sequential decision making tasks. Code representations offer the flexibility to model procedural activities and associated constraints as well as the ability to execute and verify constraint satisfaction. Leveraging code representations, we extract action preconditions from demonstration trajectories in a zero-shot manner using pre-trained code models. Given these extracted preconditions, we propose a precondition-aware action sampling strategy that ensures actions predicted by a policy are consistent with preconditions. We demonstrate that the proposed approach enhances the performance of few-shot policy learning approaches across task-oriented dialog and embodied textworld benchmarks.
Abstract（参考訳）: エージェントがタスクを完了させるために必要な基本的なスキルの1つは、どの時点でどのアクションが実行可能かを理解する能力である。本研究は,シーケンシャルな意思決定タスクのためのアクション前提条件を推論するために,コード表現の新たな利用を探求する。コード表現は、手続きアクティビティと関連する制約をモデル化する柔軟性と、制約満足度の実行と検証を可能にする。コード表現を活用することで,事前学習したコードモデルを用いて,実演軌跡からゼロショット方式で動作前条件を抽出する。抽出した事前条件から,政策によって予測される行動が事前条件と整合していることを保証する事前条件対応行動サンプリング戦略を提案する。提案手法は,タスク指向ダイアログと組込みテキストワールドベンチマークにまたがる数ショットのポリシー学習手法の性能を向上させる。

関連論文リスト

Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文参考訳（メタデータ） (2025-05-22T09:08:47Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-12T14:20:33Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文参考訳（メタデータ） (2024-06-17T17:00:41Z)
Learning to Generate All Feasible Actions [4.333208181196761]
アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
論文参考訳（メタデータ） (2023-01-26T23:15:51Z)
Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-27T07:52:04Z)
Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文参考訳（メタデータ） (2022-01-02T04:22:01Z)
Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。この利点を実用的に活用できるメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-30T12:02:14Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文参考訳（メタデータ） (2020-04-28T00:15:26Z)
Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文参考訳（メタデータ） (2020-03-19T15:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。