論文の概要: World-aware Planning Narratives Enhance Large Vision-Language Model Planner
- arxiv url: http://arxiv.org/abs/2506.21230v1
- Date: Thu, 26 Jun 2025 13:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.093282
- Title: World-aware Planning Narratives Enhance Large Vision-Language Model Planner
- Title(参考訳): 大規模ビジョンランゲージモデルプランナーを育成する世界意識型計画物語
- Authors: Junhao Shi, Zhaoye Fei, Siyin Wang, Qipeng Guo, Jingjing Gong, Xipeng QIu,
- Abstract要約: LVLM(Large Vision-Language Models)は、複雑なシナリオに苦しむ計画タスクを具体化する。
我々は,LVLMを包括的環境理解に注入するフレームワークであるワールド・アウェア・プランニング・ナラティブ・エンハンスメント(WAP)を提案する。
- 参考スコア(独自算出の注目度): 48.97399087613431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) show promise for embodied planning tasks but struggle with complex scenarios involving unfamiliar environments and multi-step goals. Current approaches rely on environment-agnostic imitation learning that disconnects instructions from environmental contexts, causing models to struggle with context-sensitive instructions and rely on supplementary cues rather than visual reasoning during long-horizon interactions. In this work, we propose World-Aware Planning Narrative Enhancement (WAP), a framework that infuses LVLMs with comprehensive environmental understanding through four cognitive capabilities (visual appearance modeling, spatial reasoning, functional abstraction, and syntactic grounding) while developing and evaluating models using only raw visual observations through curriculum learning. Evaluations on the EB-ALFRED benchmark demonstrate substantial improvements, with Qwen2.5-VL achieving a 60.7 absolute improvement in task success rates, particularly in commonsense reasoning (+60.0) and long-horizon planning (+70.0). Notably, our enhanced open-source models outperform proprietary systems like GPT-4o and Claude-3.5-Sonnet by a large margin.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、計画タスクの具体化を約束するが、慣れていない環境や多段階の目標を含む複雑なシナリオに苦労する。
現在のアプローチは環境に依存しない模倣学習に依存しており、環境コンテキストから命令を切り離すことで、モデルがコンテキストに敏感な指示に苦しむことになり、長い水平相互作用の間、視覚的推論よりも補足的手がかりに頼っている。
本研究では,4つの認知能力(視覚的外見モデリング,空間的推論,機能的抽象化,統語的基礎)を通じてLVLMを包括的環境理解に注入し,カリキュラム学習による生の視覚的観察のみを用いたモデルの開発と評価を行うフレームワークであるWAP(World-Aware Planning Narrative Enhancement)を提案する。
EB-ALFREDベンチマークの評価は、Qwen2.5-VLによるタスク成功率の60.7の改善、特にコモンセンス推論(+60.0)とロングホライゾン計画(+70.0)によって大幅に改善された。
特に、強化されたオープンソースモデルは、GPT-4oやClaude-3.5-Sonnetのようなプロプライエタリなシステムよりも大きなマージンで優れている。
関連論文リスト
- EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [61.99289768925256]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。
9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。
静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文 参考訳(メタデータ) (2025-06-03T09:18:33Z) - VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility [31.50489359729733]
VISO-Graspは視覚言語によるインフォームドシステムで、厳しい環境下での把握のための可視性制約に対処する。
VISO-Graspは、目標指向のグリップにおいて87.5%の成功率を達成し、ベースラインを上回る最少のグリップの試みを達成している。
論文 参考訳(メタデータ) (2025-03-16T18:46:54Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。