論文の概要: A Picture is Worth a Thousand Words: Language Models Plan from Pixels
- arxiv url: http://arxiv.org/abs/2303.09031v1
- Date: Thu, 16 Mar 2023 02:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:12:54.260828
- Title: A Picture is Worth a Thousand Words: Language Models Plan from Pixels
- Title(参考訳): 絵は千語の価値: 言語モデルはピクセルから計画する
- Authors: Anthony Z. Liu, Lajanugen Logeswaran, Sungryull Sohn, Honglak Lee
- Abstract要約: 計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
- 参考スコア(独自算出の注目度): 53.85753597586226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning is an important capability of artificial agents that perform
long-horizon tasks in real-world environments. In this work, we explore the use
of pre-trained language models (PLMs) to reason about plan sequences from text
instructions in embodied visual environments. Prior PLM based approaches for
planning either assume observations are available in the form of text (e.g.,
provided by a captioning model), reason about plans from the instruction alone,
or incorporate information about the visual environment in limited ways (such
as a pre-trained affordance function). In contrast, we show that PLMs can
accurately plan even when observations are directly encoded as input prompts
for the PLM. We show that this simple approach outperforms prior approaches in
experiments on the ALFWorld and VirtualHome benchmarks.
- Abstract(参考訳): 計画は, 実環境下で長時間作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
以前の PLM ベースの計画手法では、観察はテキスト(例えば、キャプションモデルによって提供される)の形式で利用できると仮定するか、指示のみによる計画の推論、あるいは限られた方法で視覚環境に関する情報(事前訓練された価格関数など)を組み込む。
対照的に,plmの入力プロンプトとして観測が直接エンコードされた場合でも,plmは正確に計画できることを示す。
この単純なアプローチは、ALFWorldとVirtualHomeベンチマークの実験において、従来のアプローチよりも優れていることを示す。
関連論文リスト
- ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
鍵となる問題は、低レベルの観測において個々のエンティティと計画に必要な抽象概念をスムーズに結合することの難しさである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストプロンプトを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts [34.636688162807836]
大規模言語モデル(LLM)は、自然言語で記述された計画課題の解決において有望であるが、それらの直接的な使用はしばしば矛盾した推論と幻覚をもたらす。
本稿では,自然言語記述の多種多様な解釈を考慮し,複数の候補を生成するアクションスキーマライブラリを構築する手法を提案する。
実験の結果、パイプラインは直接LLM計画アプローチよりもプランニングが優れていることが示された。
論文 参考訳(メタデータ) (2024-09-24T09:33:12Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文 参考訳(メタデータ) (2024-02-23T19:34:47Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。