論文の概要: Pretrained Language Models as Visual Planners for Human Assistance
- arxiv url: http://arxiv.org/abs/2304.09179v3
- Date: Sat, 26 Aug 2023 06:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 00:06:43.500895
- Title: Pretrained Language Models as Visual Planners for Human Assistance
- Title(参考訳): 人間支援のためのビジュアルプランナーとしての事前学習言語モデル
- Authors: Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis
Iuzzolino, Unnat Jain, Ruta Desai
- Abstract要約: Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
- 参考スコア(独自算出の注目度): 12.8775186900555
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In our pursuit of advancing multi-modal AI assistants capable of guiding
users to achieve complex multi-step goals, we propose the task of "Visual
Planning for Assistance (VPA)". Given a succinct natural language goal, e.g.,
"make a shelf", and a video of the user's progress so far, the aim of VPA is to
devise a plan, i.e., a sequence of actions such as "sand shelf", "paint shelf",
etc. to realize the specified goal. This requires assessing the user's progress
from the (untrimmed) video, and relating it to the requirements of natural
language goal, i.e., which actions to select and in what order? Consequently,
this requires handling long video history and arbitrarily complex action
dependencies. To address these challenges, we decompose VPA into video action
segmentation and forecasting. Importantly, we experiment by formulating the
forecasting step as a multi-modal sequence modeling problem, allowing us to
leverage the strength of pre-trained LMs (as the sequence model). This novel
approach, which we call Visual Language Model based Planner (VLaMP),
outperforms baselines across a suite of metrics that gauge the quality of the
generated plans. Furthermore, through comprehensive ablations, we also isolate
the value of each component--language pre-training, visual observations, and
goal information. We have open-sourced all the data, model checkpoints, and
training code.
- Abstract(参考訳): 複雑な多段階目標を達成するためにユーザを導くことができるマルチモーダルAIアシスタントを追求する中で,我々は,VPA(Visual Planning for Assistance)の課題を提案する。
簡潔な自然言語のゴール(例えば「棚を作る」など)と、ユーザの進捗状況のビデオが与えられた場合、VPAの目的は、計画、すなわち「砂の棚」や「塗料の棚」といった一連のアクションを考案して、指定された目標を実現することである。
これは、ユーザの進捗を(未熟な)ビデオから評価し、それを自然言語の目的、すなわち、どのアクションを選択し、どの順番で実行するかという要件に関連付ける必要がある。
そのため、長いビデオ履歴と任意に複雑なアクション依存関係を扱う必要がある。
これらの課題に対処するため、VPAをビデオアクションセグメンテーションと予測に分解する。
重要なのは,予測ステップをマルチモーダルシーケンスモデリング問題として定式化し,(シーケンスモデルとして)事前学習したlmsの強度を活用できることである。
Visual Language Model Based Planner (VLaMP)と呼ばれるこの新しいアプローチは、生成されたプランの品質を計測する一連のメトリクスでベースラインを上回っます。
さらに,包括的アブレーションにより,各成分言語前訓練,視覚観察,目標情報の値も分離した。
すべてのデータ、モデルチェックポイント、トレーニングコードをオープンソース化しました。
関連論文リスト
- Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文 参考訳(メタデータ) (2024-02-23T19:34:47Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。