Fugu-MT 論文翻訳(概要): Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos

論文の概要: Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos

arxiv url: http://arxiv.org/abs/2409.20557v1
Date: Mon, 30 Sep 2024 17:57:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 02:20:11.646953
Title: Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos
Title（参考訳）: 目的, 評価, 探索: 指導ビデオにおける目標指向プランニングのためのLLMのハーネス化
Authors: Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang,
Abstract要約: VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。最適な計画生成のための幅優先探索アルゴリズムを採用している。実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
参考スコア（独自算出の注目度）: 48.15438373870542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal-oriented planning, or anticipating a series of actions that transition an agent from its current state to a predefined objective, is crucial for developing intelligent assistants aiding users in daily procedural tasks. The problem presents significant challenges due to the need for comprehensive knowledge of temporal and hierarchical task structures, as well as strong capabilities in reasoning and planning. To achieve this, prior work typically relies on extensive training on the target dataset, which often results in significant dataset bias and a lack of generalization to unseen tasks. In this work, we introduce VidAssist, an integrated framework designed for zero/few-shot goal-oriented planning in instructional videos. VidAssist leverages large language models (LLMs) as both the knowledge base and the assessment tool for generating and evaluating action plans, thus overcoming the challenges of acquiring procedural knowledge from small-scale, low-diversity datasets. Moreover, VidAssist employs a breadth-first search algorithm for optimal plan generation, in which a composite of value functions designed for goal-oriented planning is utilized to assess the predicted actions at each step. Extensive experiments demonstrate that VidAssist offers a unified framework for different goal-oriented planning setups, e.g., visual planning for assistance (VPA) and procedural planning (PP), and achieves remarkable performance in zero-shot and few-shot setups. Specifically, our few-shot model outperforms the prior fully supervised state-of-the-art method by +7.7% in VPA and +4.81% PP task on the COIN dataset while predicting 4 future actions. Code, and models are publicly available at https://sites.google.com/view/vidassist.
Abstract（参考訳）: 目標指向の計画、あるいはエージェントを現在の状態から事前に定義された目標に移行させる一連のアクションを予想することは、日々の手続き作業でユーザを支援するインテリジェントアシスタントを開発する上で不可欠である。この問題は、時間的・階層的なタスク構造に関する包括的な知識が必要であり、推論や計画における強力な能力が必要であるため、重大な課題を提起する。これを実現するために、以前の作業は通常、ターゲットデータセットの広範なトレーニングに依存しており、しばしば大きなデータセットバイアスと、目に見えないタスクへの一般化の欠如をもたらす。本研究では,教師ビデオにおけるゼロ/フェーショット目標指向計画のための統合フレームワークであるVidAssistを紹介する。 VidAssistは、大規模言語モデル(LLM)を、行動計画の生成と評価のための知識ベースとアセスメントツールの両方として活用することで、小規模で低多様性のデータセットから手続き的知識を取得するという課題を克服する。さらに、VidAssistは最適計画生成のための幅優先探索アルゴリズムを用いて、ゴール指向計画のために設計された値関数の合成を用いて、各ステップで予測された動作を評価する。大規模な実験により、VidAssistは、例えば、視覚的援助計画(VPA)や手続き計画(PP)など、さまざまな目標指向の計画設定のための統一されたフレームワークを提供し、ゼロショットと数ショットのセットアップで顕著なパフォーマンスを実現している。特に、我々の少数ショットモデルは、4つの将来のアクションを予測しながら、VPAの+7.7%、COINデータセットの+4.81%のPPタスクを前回の完全に教師された最先端の手法よりも優れています。コードとモデルはhttps://sites.google.com/view/vidassist.comで公開されている。

関連論文リスト

Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction [41.63965006043724]
Visual Planning for Assistance (VPA)は、ユーザの進捗を示すビデオに基づいて、特定の目標を達成するために必要な一連のユーザアクションを予測することを目的としている。マルチモーダル大言語モデル(MLLM)の最近の進歩は、ビデオ理解において有望な結果を示している。ビデオベースプランニングタスクにおいて,大規模なMLLMを訓練する上での課題を2つ挙げる。
論文参考訳（メタデータ） (2025-07-20T21:39:05Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。 EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文参考訳（メタデータ） (2024-04-21T08:10:20Z)
Anticipate & Collab: Data-driven Task Anticipation and Knowledge-driven Planning for Human-robot Collaboration [13.631341660350028]
日々の生活活動において人間を支援するエージェントは、今後の課題を予測してより効果的に協力することができる。データ駆動型手法はタスク予測、計画、関連する問題の最先端を表現しているが、これらの手法は資源不足と不透明である。本稿では,人間とロボットのコラボレーションに向けたこれまでの取り組みを大幅に拡張するフレームワークであるDaTAPlanについて述べる。
論文参考訳（メタデータ） (2024-04-04T16:52:48Z)
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文参考訳（メタデータ） (2024-03-05T18:01:59Z)
AutoGPT+P: Affordance-based Task Planning with Large Language Models [6.848986296339031]
AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
論文参考訳（メタデータ） (2024-02-16T16:00:50Z)
Learning adaptive planning representations with natural language guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。 Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文参考訳（メタデータ） (2023-12-13T23:35:31Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (2023-05-24T11:04:30Z)
Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。 VPAをビデオアクションセグメンテーションと予測に分解する。この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文参考訳（メタデータ） (2023-04-17T18:07:36Z)
Long-Horizon Visual Planning with Goal-Conditioned Hierarchical Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-23T17:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。