論文の概要: Visual Planning: Let's Think Only with Images
- arxiv url: http://arxiv.org/abs/2505.11409v1
- Date: Fri, 16 May 2025 16:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.575742
- Title: Visual Planning: Let's Think Only with Images
- Title(参考訳): ビジュアルプランニング:イメージだけで考えてみよう
- Authors: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić,
- Abstract要約: 我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。
そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。
このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
- 参考スコア(独自算出の注目度): 30.67065689757505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.
- Abstract(参考訳): 大規模言語モデル(LLM)とそのマルチモーダル拡張(MLLM)の最近の進歩は、多種多様なタスクにわたる機械推論を大幅に強化している。
しかし、これらのモデルは、視覚情報が存在する場合でも、純粋テキストを、表現と構造的推論の両方の媒体として頼りにしている。
本研究では、特に空間的・幾何学的情報を含むタスクにおいて、言語が推論において最も自然なあるいは効果的なモダリティであるとは限らないことを論じる。
そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。
このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
本稿では,大規模視覚モデルの訓練後,GRPOによって強化学習フレームワークであるビジュアルプランニング(Visual Planning via Reinforcement Learning, VPRL)を導入し,代表的な視覚ナビゲーションタスク,FrozenLake,Maze,MiniBehaviorの選択において,計画の大幅な改善を実現した。
私たちのビジュアルプランニングパラダイムは、テキストのみの空間で推論を行う他のプランニングの亜種よりも優れています。
この結果から,視覚計画は,直感的,イメージベース推論の恩恵を受けるタスクの新たな道を開く,言語ベースの推論に代わる,実現可能かつ有望な代替手段として確立された。
関連論文リスト
- VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Using Left and Right Brains Together: Towards Vision and Language
Planning [95.47128850991815]
本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-16T09:46:20Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。
本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。
我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文 参考訳(メタデータ) (2023-10-05T05:41:21Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。