論文の概要: Skill Induction and Planning with Latent Language
- arxiv url: http://arxiv.org/abs/2110.01517v1
- Date: Mon, 4 Oct 2021 15:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 16:02:18.400296
- Title: Skill Induction and Planning with Latent Language
- Title(参考訳): 潜在言語によるスキル誘導と計画
- Authors: Pratyusha Sharma, Antonio Torralba, Jacob Andreas
- Abstract要約: 我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
- 参考スコア(独自算出の注目度): 94.55783888325165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for learning hierarchical policies from
demonstrations, using sparse natural language annotations to guide the
discovery of reusable skills for autonomous decision-making. We formulate a
generative model of action sequences in which goals generate sequences of
high-level subtask descriptions, and these descriptions generate sequences of
low-level actions. We describe how to train this model using primarily
unannotated demonstrations by parsing demonstrations into sequences of named
high-level subtasks, using only a small number of seed annotations to ground
language in action. In trained models, the space of natural language commands
indexes a combinatorial library of skills; agents can use these skills to plan
by generating high-level instruction sequences tailored to novel goals. We
evaluate this approach in the ALFRED household simulation environment,
providing natural language annotations for only 10% of demonstrations. It
completes more than twice as many tasks as a standard approach to learning from
demonstrations, matching the performance of instruction following models with
access to ground-truth plans during both training and evaluation.
- Abstract(参考訳): 本稿では,分散自然言語アノテーションを用いて,自律的意思決定のための再利用可能なスキルの発見を指導し,実演から階層的ポリシを学ぶためのフレームワークを提案する。
我々は、目標が高レベルサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを作成し、これらの記述が低レベルアクションのシーケンスを生成する。
本論文では,実演を名前付きハイレベルなサブタスクのシーケンスに解析することで,主に無注釈のデモンストレーションを用いてモデルを訓練する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルの組合せライブラリをインデックス化しており、エージェントはこれらのスキルを使用して、新しい目標に合わせた高度な命令シーケンスを生成することができる。
実演の10%に自然言語アノテーションを提供するALFRED家庭シミュレーション環境において,本手法の評価を行った。
デモから学習する標準的な手法の2倍以上のタスクを完了し、訓練と評価の双方において、モデルに従う命令のパフォーマンスと地道的な計画へのアクセスとを一致させる。
関連論文リスト
- SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。