論文の概要: A Picture is Worth a Thousand Words: Language Models Plan from Pixels
- arxiv url: http://arxiv.org/abs/2303.09031v1
- Date: Thu, 16 Mar 2023 02:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:12:54.260828
- Title: A Picture is Worth a Thousand Words: Language Models Plan from Pixels
- Title(参考訳): 絵は千語の価値: 言語モデルはピクセルから計画する
- Authors: Anthony Z. Liu, Lajanugen Logeswaran, Sungryull Sohn, Honglak Lee
- Abstract要約: 計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
- 参考スコア(独自算出の注目度): 53.85753597586226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning is an important capability of artificial agents that perform
long-horizon tasks in real-world environments. In this work, we explore the use
of pre-trained language models (PLMs) to reason about plan sequences from text
instructions in embodied visual environments. Prior PLM based approaches for
planning either assume observations are available in the form of text (e.g.,
provided by a captioning model), reason about plans from the instruction alone,
or incorporate information about the visual environment in limited ways (such
as a pre-trained affordance function). In contrast, we show that PLMs can
accurately plan even when observations are directly encoded as input prompts
for the PLM. We show that this simple approach outperforms prior approaches in
experiments on the ALFWorld and VirtualHome benchmarks.
- Abstract(参考訳): 計画は, 実環境下で長時間作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
以前の PLM ベースの計画手法では、観察はテキスト(例えば、キャプションモデルによって提供される)の形式で利用できると仮定するか、指示のみによる計画の推論、あるいは限られた方法で視覚環境に関する情報(事前訓練された価格関数など)を組み込む。
対照的に,plmの入力プロンプトとして観測が直接エンコードされた場合でも,plmは正確に計画できることを示す。
この単純なアプローチは、ALFWorldとVirtualHomeベンチマークの実験において、従来のアプローチよりも優れていることを示す。
関連論文リスト
- ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。
しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。
我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文 参考訳(メタデータ) (2022-09-20T17:29:56Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - I-Tuning: Tuning Language Models with Image for Caption Generation [9.511101155155957]
本研究では,凍結したPLMをキャプション生成のための画像で調整する新たな視点を提案する。
我々は,この手法をI-Tuningと表現し,画像から視覚情報を自動フィルタリングし,PLMの出力隠れ状態を調整する。
論文 参考訳(メタデータ) (2022-02-14T09:36:50Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。