論文の概要: PlanLLM: Video Procedure Planning with Refinable Large Language Models
- arxiv url: http://arxiv.org/abs/2412.19139v1
- Date: Thu, 26 Dec 2024 09:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:20.063558
- Title: PlanLLM: Video Procedure Planning with Refinable Large Language Models
- Title(参考訳): PlanLLM: 拡張可能な大言語モデルによるビデオプロシージャ計画
- Authors: Dejie Yang, Zijing Zhao, YangLiu,
- Abstract要約: ビデオプロシージャ計画、すなわち、開始とゴール状態のビデオフレームが与えられた一連のアクションステップを計画することは、AIを具現化する上で不可欠な能力である。
最近の研究は、Large Language Models (LLMs) を用いて、リッチなアクションステップ記述テキストを生成し、アクションステップのデコーディングをガイドしている。
ビデオプロシージャ計画のためのLLMを用いたクロスモーダル共同学習フレームワークPlanLLMを提案する。
- 参考スコア(独自算出の注目度): 5.371855090716962
- License:
- Abstract: Video procedure planning, i.e., planning a sequence of action steps given the video frames of start and goal states, is an essential ability for embodied AI. Recent works utilize Large Language Models (LLMs) to generate enriched action step description texts to guide action step decoding. Although LLMs are introduced, these methods decode the action steps into a closed-set of one-hot vectors, limiting the model's capability of generalizing to new steps or tasks. Additionally, fixed action step descriptions based on world-level commonsense may contain noise in specific instances of visual states. In this paper, we propose PlanLLM, a cross-modal joint learning framework with LLMs for video procedure planning. We propose an LLM-Enhanced Planning module which fully uses the generalization ability of LLMs to produce free-form planning output and to enhance action step decoding. We also propose Mutual Information Maximization module to connect world-level commonsense of step descriptions and sample-specific information of visual states, enabling LLMs to employ the reasoning ability to generate step sequences. With the assistance of LLMs, our method can both closed-set and open vocabulary procedure planning tasks. Our PlanLLM achieves superior performance on three benchmarks, demonstrating the effectiveness of our designs.
- Abstract(参考訳): ビデオプロシージャ計画、すなわち、開始とゴール状態のビデオフレームが与えられた一連のアクションステップを計画することは、AIを具現化する上で不可欠な能力である。
最近の研究は、Large Language Models (LLMs) を用いて、リッチなアクションステップ記述テキストを生成し、アクションステップのデコーディングをガイドしている。
LLMは導入されたが、これらのメソッドはアクションステップを1ホットベクトルのクローズドセットにデコードし、モデルが新しいステップやタスクに一般化する能力を制限する。
さらに、世界レベルのコモンセンスに基づく固定されたアクションステップ記述は、視覚状態の特定のインスタンスにノイズを含む可能性がある。
本稿では,ビデオプロシージャ計画のためのLLMを用いたクロスモーダル共同学習フレームワークPlanLLMを提案する。
本研究では, LLMの一般化能力をフル活用して自由形式の計画出力を生成し, 動作ステップの復号化を促進するLLM拡張計画モジュールを提案する。
また,ステップ記述のワールドレベル・コモンセンスと視覚状態のサンプル固有情報を接続する相互情報最大化モジュールを提案する。
LLMの助けを借りて、我々の手法はクローズドセットとオープンボキャブラリプロシージャ計画タスクの両方を実現できる。
PlanLLMは3つのベンチマークで優れた性能を実現し、設計の有効性を実証する。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation [26.540648608911308]
本稿では,人間の実演から触覚情報や力覚情報を取り入れた文脈内学習フレームワークを提案する。
本稿では,各モダリティを総合的なタスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
論文 参考訳(メタデータ) (2024-09-18T10:36:47Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。