論文の概要: LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning
- arxiv url: http://arxiv.org/abs/2507.08496v1
- Date: Fri, 11 Jul 2025 11:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.337758
- Title: LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning
- Title(参考訳): LLaPa: ファクトファクトアウェアな手続き計画のためのビジョンランゲージモデルフレームワーク
- Authors: Shibo Sun, Xue Li, Donglin Di, Mingjie Wei, Lanshun Nie, Wei-Nan Zhang, Dechen Zhan, Yang Song, Lei Fan,
- Abstract要約: マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
- 参考スコア(独自算出の注目度): 26.098281158573748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have advanced procedural planning for embodied AI systems through strong reasoning abilities, the integration of multimodal inputs and counterfactual reasoning remains underexplored. To tackle these challenges, we introduce LLaPa, a vision-language model framework designed for multimodal procedural planning. LLaPa generates executable action sequences from textual task descriptions and visual environmental images using vision-language models (VLMs). Furthermore, we enhance LLaPa with two auxiliary modules to improve procedural planning. The first module, the Task-Environment Reranker (TER), leverages task-oriented segmentation to create a task-sensitive feature space, aligning textual descriptions with visual environments and emphasizing critical regions for procedural execution. The second module, the Counterfactual Activities Retriever (CAR), identifies and emphasizes potential counterfactual conditions, enhancing the model's reasoning capability in counterfactual scenarios. Extensive experiments on ActPlan-1K and ALFRED benchmarks demonstrate that LLaPa generates higher-quality plans with superior LCS and correctness, outperforming advanced models. The code and models are available https://github.com/sunshibo1234/LLaPa.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な推論能力を通じて、AIシステムの手続き的計画を進めてきたが、マルチモーダル入力と対実推論の統合はいまだに未定である。
これらの課題に対処するために,マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaは視覚言語モデル(VLM)を用いてテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
さらに,LLaPaを2つの補助モジュールで拡張し,手続き計画を改善する。
最初のモジュールであるTask-Environment Reranker (TER)はタスク指向のセグメンテーションを活用してタスクに敏感な機能空間を作成し、テキスト記述を視覚環境と整列させ、手続き実行のために重要な領域を強調する。
第2のモジュールであるCounterfactual Activity Retriever (CAR)は、カウンターファクトのシナリオにおけるモデルの推論能力を高め、潜在的なカウンターファクトの条件を特定し、強調する。
ActPlan-1KとALFREDベンチマークの大規模な実験は、LLaPaが優れたLCSと正確性を持つ高品質なプランを生成し、高度なモデルより優れていることを示した。
コードとモデルはhttps://github.com/sunshibo1234/LLaPaで入手できる。
関連論文リスト
- Language-Vision Planner and Executor for Text-to-Visual Reasoning [9.140712714337273]
本稿では,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,各ステップをリアルタイムで実行することができるAIシステムを提案する。
本稿では,視覚的推論のための大規模言語モデル (LLM) の開発に触発されて,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,計画の各ステップをリアルタイムで実行可能なAIシステム VLAgent を提案する。
論文 参考訳(メタデータ) (2025-06-09T13:55:55Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - PlanLLM: Video Procedure Planning with Refinable Large Language Models [5.371855090716962]
ビデオプロシージャ計画、すなわち、開始とゴール状態のビデオフレームが与えられた一連のアクションステップを計画することは、AIを具現化する上で不可欠な能力である。
最近の研究は、Large Language Models (LLMs) を用いて、リッチなアクションステップ記述テキストを生成し、アクションステップのデコーディングをガイドしている。
ビデオプロシージャ計画のためのLLMを用いたクロスモーダル共同学習フレームワークPlanLLMを提案する。
論文 参考訳(メタデータ) (2024-12-26T09:51:05Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。