論文の概要: Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction
- arxiv url: http://arxiv.org/abs/2605.16848v1
- Date: Sat, 16 May 2026 07:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.200849
- Title: Thinking with Patterns: Breaking the Perceptual Bottleneck in Visual Planning via Pattern Induction
- Title(参考訳): パターンによる思考:パターン誘導による視覚計画における知覚的ボツネックの破滅
- Authors: Yichang Jian, Boyuan Xiao, Zhenyuan Huang, Yifei Peng, Yao-Xiang Ding,
- Abstract要約: 生の視覚入力からのプランニングは、視覚言語モデル(VLM)にとって重要な課題である。
我々は、Thinking with Images(TWI)を、徐々に正確な内部世界モデルを構築し、反映するツールとして定式化する。
我々は,新しいタスクにおいて,VLMが既知の視覚的パターンを積極的に認識することを可能にする新しいTWI戦略であるPattern Inferenceを提案する。
- 参考スコア(独自算出の注目度): 5.489090549883847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning from raw visual input remains a significant challenge for current Vision-Language Models (VLMs), when the complexity of input is beyond their one-step perception capability. Motivated by recent advances in Thinking with Images (TWI), a reasonable solution is to decompose the perception process into simpler steps by iteratively acquiring and incorporating local visual evidence. However, even though current VLMs are well-trained in general TWI ability, their perceptual bottleneck in the planning domain remains. To tackle this challenge, we formulate TWI as a tool to gradually build and reflect an accurate internal world model. We find that the resulting training-free planning strategy enables VLMs to solve tasks that are far beyond their initial capabilities, at the cost that too many TWI operations would significantly increase the computational overhead. To further improve efficiency, we propose Pattern Inference, a novel TWI strategy enabling VLMs to actively recognize known visual patterns in the new tasks and directly infer local world model structures. To obtain these patterns, we propose Pattern Induction, an online inductive learning strategy treating visual patterns as composite and reusable experts, which are autonomously discovered and optimized from experience. Experimental evaluations in FrozenLake, Crafter and CubeBench domains show that our approaches achieve a desirable balance between accuracy and efficiency.
- Abstract(参考訳): 生の視覚入力からのプランニングは、現在の視覚言語モデル(VLM)にとって重要な課題であり、入力の複雑さは1段階の知覚能力を超えている。
近年のThinking with Images (TWI)の進歩に触発された合理的な解決策は、局所的な視覚的エビデンスを反復的に取得し、組み込むことにより、知覚プロセスをより単純なステップに分解することである。
しかしながら、現在のVLMは一般的なTWI能力で十分に訓練されているにもかかわらず、計画領域における知覚的ボトルネックは残っている。
この課題に対処するため、我々はTWIを、正確に内部世界モデルを構築し、反映するツールとして定式化する。
結果として、トレーニング不要な計画戦略により、多くのTWI操作が計算オーバーヘッドを大幅に増加させるため、VLMが初期能力を超えているタスクを解決できることが判明した。
本稿では,VLMが新しいタスクにおける既知の視覚的パターンを積極的に認識し,局所世界モデル構造を直接推論することを可能にする新しいTWI戦略であるPattern Inferenceを提案する。
これらのパターンを得るために、視覚パターンを総合的かつ再利用可能な専門家として扱うオンライン帰納学習戦略であるPattern Injectionを提案し、経験から自律的に発見し、最適化する。
FrozenLake, Crafter, CubeBench ドメインでの実験評価により, 提案手法は精度と効率のバランスが望ましいことを示した。
関連論文リスト
- Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey [13.43815806675263]
VLA(Vision-Language-Action)モデルは、自然言語の指示と視覚的な観察をロボットの行動にマッピングすることで、視覚言語モデルを拡張し、制御を具体化する。
これらの能力にもかかわらず、VLAシステムは膨大な計算とメモリ要求のために重大な課題に直面している。
論文 参考訳(メタデータ) (2025-10-20T02:59:45Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。