論文の概要: Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2409.20557v1
- Date: Mon, 30 Sep 2024 17:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 02:20:11.646953
- Title: Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos
- Title(参考訳): 目的, 評価, 探索: 指導ビデオにおける目標指向プランニングのためのLLMのハーネス化
- Authors: Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang,
- Abstract要約: VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 48.15438373870542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-oriented planning, or anticipating a series of actions that transition an agent from its current state to a predefined objective, is crucial for developing intelligent assistants aiding users in daily procedural tasks. The problem presents significant challenges due to the need for comprehensive knowledge of temporal and hierarchical task structures, as well as strong capabilities in reasoning and planning. To achieve this, prior work typically relies on extensive training on the target dataset, which often results in significant dataset bias and a lack of generalization to unseen tasks. In this work, we introduce VidAssist, an integrated framework designed for zero/few-shot goal-oriented planning in instructional videos. VidAssist leverages large language models (LLMs) as both the knowledge base and the assessment tool for generating and evaluating action plans, thus overcoming the challenges of acquiring procedural knowledge from small-scale, low-diversity datasets. Moreover, VidAssist employs a breadth-first search algorithm for optimal plan generation, in which a composite of value functions designed for goal-oriented planning is utilized to assess the predicted actions at each step. Extensive experiments demonstrate that VidAssist offers a unified framework for different goal-oriented planning setups, e.g., visual planning for assistance (VPA) and procedural planning (PP), and achieves remarkable performance in zero-shot and few-shot setups. Specifically, our few-shot model outperforms the prior fully supervised state-of-the-art method by +7.7% in VPA and +4.81% PP task on the COIN dataset while predicting 4 future actions. Code, and models are publicly available at https://sites.google.com/view/vidassist.
- Abstract(参考訳): 目標指向の計画、あるいはエージェントを現在の状態から事前に定義された目標に移行させる一連のアクションを予想することは、日々の手続き作業でユーザを支援するインテリジェントアシスタントを開発する上で不可欠である。
この問題は、時間的・階層的なタスク構造に関する包括的な知識が必要であり、推論や計画における強力な能力が必要であるため、重大な課題を提起する。
これを実現するために、以前の作業は通常、ターゲットデータセットの広範なトレーニングに依存しており、しばしば大きなデータセットバイアスと、目に見えないタスクへの一般化の欠如をもたらす。
本研究では,教師ビデオにおけるゼロ/フェーショット目標指向計画のための統合フレームワークであるVidAssistを紹介する。
VidAssistは、大規模言語モデル(LLM)を、行動計画の生成と評価のための知識ベースとアセスメントツールの両方として活用することで、小規模で低多様性のデータセットから手続き的知識を取得するという課題を克服する。
さらに、VidAssistは最適計画生成のための幅優先探索アルゴリズムを用いて、ゴール指向計画のために設計された値関数の合成を用いて、各ステップで予測された動作を評価する。
大規模な実験により、VidAssistは、例えば、視覚的援助計画(VPA)や手続き計画(PP)など、さまざまな目標指向の計画設定のための統一されたフレームワークを提供し、ゼロショットと数ショットのセットアップで顕著なパフォーマンスを実現している。
特に、我々の少数ショットモデルは、4つの将来のアクションを予測しながら、VPAの+7.7%、COINデータセットの+4.81%のPPタスクを前回の完全に教師された最先端の手法よりも優れています。
コードとモデルはhttps://sites.google.com/view/vidassist.comで公開されている。
関連論文リスト
- Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - Anticipate & Collab: Data-driven Task Anticipation and Knowledge-driven Planning for Human-robot Collaboration [13.631341660350028]
日々の生活活動において人間を支援するエージェントは、今後の課題を予測してより効果的に協力することができる。
データ駆動型手法はタスク予測、計画、関連する問題の最先端を表現しているが、これらの手法は資源不足と不透明である。
本稿では,人間とロボットのコラボレーションに向けたこれまでの取り組みを大幅に拡張するフレームワークであるDaTAPlanについて述べる。
論文 参考訳(メタデータ) (2024-04-04T16:52:48Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - AutoGPT+P: Affordance-based Task Planning with Large Language Models [6.848986296339031]
AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。
提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
論文 参考訳(メタデータ) (2024-02-16T16:00:50Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-17T18:07:36Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。