論文の概要: See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2509.16087v1
- Date: Fri, 19 Sep 2025 15:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.2276
- Title: See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
- Title(参考訳): See&Trek:マルチモーダル大言語モデルのための学習自由空間プロンプト
- Authors: Pengteng Li, Pinhao Song, Wuyang Li, Weiyu Guo, Huizai Yao, Yijie Xu, Dugang Liu, Hui Xiong,
- Abstract要約: SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 33.18304419115947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SEE&TREK, the first training-free prompting framework tailored to enhance the spatial understanding of Multimodal Large Language Models (MLLMS) under vision-only constraints. While prior efforts have incorporated modalities like depth or point clouds to improve spatial reasoning, purely visualspatial understanding remains underexplored. SEE&TREK addresses this gap by focusing on two core principles: increasing visual diversity and motion reconstruction. For visual diversity, we conduct Maximum Semantic Richness Sampling, which employs an off-the-shell perception model to extract semantically rich keyframes that capture scene structure. For motion reconstruction, we simulate visual trajectories and encode relative spatial positions into keyframes to preserve both spatial relations and temporal coherence. Our method is training&GPU-free, requiring only a single forward pass, and can be seamlessly integrated into existing MLLM'S. Extensive experiments on the VSI-B ENCH and STI-B ENCH show that S EE &T REK consistently boosts various MLLM S performance across diverse spatial reasoning tasks with the most +3.5% improvement, offering a promising path toward stronger spatial intelligence.
- Abstract(参考訳): SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLMS)の空間的理解を高めるために設計された、最初のトレーニングフリープロンプトフレームワークである。
従来の試みでは、空間的推論を改善するために奥行きや点雲のようなモダリティが組み込まれていたが、純粋に視覚空間的理解は未探索のままである。
SEE&TREKはこのギャップに対処するため、視覚的多様性の増大と動きの再構築という2つの基本原則に焦点を当てている。
視覚的多様性のために、シーン構造をキャプチャする意味的にリッチなキーフレームを抽出するために、オフザシェル認識モデルを用いて、最大セマンティックリッチネスサンプリングを行う。
動きを再現するために、視覚的軌跡をシミュレートし、相対的な空間位置をキーフレームにエンコードし、空間的関係と時間的コヒーレンスの両方を保存する。
本手法は,1回のフォワードパスしか必要とせず,既存のMLLM’Sにシームレスに統合可能なトレーニング&GPUフリーの手法である。
VSI-B ENCHとSTI-B ENCHの広範な実験により、SEE &T REKは、様々な空間推論タスクにおけるMLLM Sのパフォーマンスを、最大で3.5%改善し、より強力な空間知性への道のりを提供する。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence [10.889641815961133]
空間知能アプローチは通常、2D推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加する。
本稿では,マクロ認識とマイクロ検証による進行的空間認知のためのフレームワークであるEagleVisionを提案する。
論文 参考訳(メタデータ) (2025-12-17T07:51:36Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning [1.5604334108839177]
視覚言語モデル(VLM)は高度なマルチモーダル推論を持つが、3Dシーンや複雑なオブジェクト構成の空間的推論では依然として課題に直面している。
本研究では,深度マップ,3次元座標,エッジマップなどの空間的特徴をマルチタスク学習フレームワークを通じて統合する拡張VLMであるSpatialViLTを紹介する。
本研究では,SpatialViLTとMaskedSpatialViLTの2つの変種を提案する。
我々のモデルは、視覚空間推論(VSR)データセットで示されるように、方向、位相、近接関係などの空間的推論のカテゴリで優れている。
論文 参考訳(メタデータ) (2025-10-03T19:04:15Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning [18.7712668000592]
動的空間推論の評価を目的とした新しい迷路ナビゲーションベンチマークを提案する。
実験により、動的視覚的ドラフトによる推論連鎖の増大、入力画像のオーバーレイドは、従来の手法よりも著しく優れていることが示された。
D2R(Dynamic Draft-Augmented Reasoning)は、テキストCoTと対応するビジュアルドラフトをシームレスにMLLMに統合するトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T12:14:23Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。