論文の概要: GeoWorld-VLM: Geometry from World Models for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.16713v1
- Date: Fri, 15 May 2026 23:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.919484
- Title: GeoWorld-VLM: Geometry from World Models for Vision-Language Models
- Title(参考訳): GeoWorld-VLM:視覚言語モデルのための世界モデルからの幾何学
- Authors: Renjie Gu, Kaichen Zhou, Yan Luo, Mengyu Wang,
- Abstract要約: 現代視覚言語モデル (VLM) は強力な意味認識を実現するが, 基本的な空間的関係は不安定である。
冷凍ビデオワールドモデルからVLMへ幾何学構造を転送するVLM側蒸留フレームワークであるGeoWorld-VLMを紹介する。
GeoWorld-VLMファインチューニングはイメージエンコーダとマルチモーダルプロジェクタのみであり、メインのバックボーンを凍結しながら、プロジェクタ後のイメージ特徴と中間のワールドモデル表現とを一致させる。
- 参考スコア(独自算出の注目度): 10.86505613923278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Vision-Language Models (VLMs) achieve strong semantic recognition, yet remain brittle on elementary spatial relations such as left of, on, behind, and between. One cause of this failure arises before language reasoning begins: the visual pathway may compress or discard critical 3D structural cues during feature extraction, so the language model receives image representations that are already insufficient for reliable spatial judgment. We introduce GeoWorld-VLM, a VLM-side distillation framework that transfers geometric structure from frozen camera-conditioned video world models into VLMs. GeoWorld-VLM fine-tunes only the image encoder and multimodal projector, aligning post-projector image features with intermediate world-model representations while leaving the main backbone frozen. Given images, a prompt, and a sampled camera trajectory, the world-model teacher converts static visual input into a synthetic multi-view spatial signal. Training combines spatial answer supervision, teacher-student feature alignment, and a preservation anchor to the original VLM. Since the language model remains frozen, GeoWorld-VLM preserves the original model's linguistic capabilities while attributing spatial improvements to the enhanced visual pathway. To evaluate the effectiveness and generality of the proposed method, we apply GeoWorld-VLM to two distinct VLM architectures and observe consistent improvements across both backbones. GeoWorld-VLM improves performance by approximately 4 percent on both the What'sUp and VSR benchmarks, suggesting that world-model-guided visual alignment generalizes across model structures and spatial reasoning datasets.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、強い意味認識を実現するが、左、オン、バック、インターセプションといった基本的な空間的関係は不安定である。
視覚経路は特徴抽出中に重要な3D構造的手がかりを圧縮または破棄する可能性があるため、言語モデルは、信頼できる空間的判断のために既に不十分な画像表現を受け取る。
我々は,凍ったカメラコンディショニングビデオワールドモデルからVLMへ幾何学構造を転送する,VLM側の蒸留フレームワークであるGeoWorld-VLMを紹介する。
GeoWorld-VLMファインチューニングはイメージエンコーダとマルチモーダルプロジェクタのみであり、メインのバックボーンを凍結しながら、プロジェクタ後のイメージ特徴と中間のワールドモデル表現とを一致させる。
画像、プロンプト、サンプルカメラの軌跡が与えられた後、ワールドモデル教師は静的視覚入力を合成多視点空間信号に変換する。
トレーニングは、空間的回答の監督、教師と学生による特徴のアライメント、およびオリジナルのVLMの保存アンカーを組み合わせる。
言語モデルは凍結されているため、GeoWorld-VLMは、拡張された視覚経路に空間的改善をもたらしながら、元のモデルの言語能力を保っている。
提案手法の有効性と汎用性を評価するため,GeoWorld-VLMを2つの異なるVLMアーキテクチャに適用し,両バックボーン間の一貫した改善を観察する。
GeoWorld-VLMはWhat'sUpベンチマークとVSRベンチマークの両方のパフォーマンスを約4%向上させ、世界モデル誘導視覚アライメントがモデル構造と空間推論データセットをまたいで一般化することを示唆している。
関連論文リスト
- World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning [18.658825757342544]
視覚言語モデル (VLM) は静的視覚理解において高い性能を示した。
彼らは今でも、エゴセントリックな動きの下でのシーンの進化を想像する必要がある、ダイナミックな空間的推論に苦慮している。
生成世界モデルから視覚言語モデルに空間的想像力を蒸留するトレーニングフレームワーク World2VLM を提案する。
論文 参考訳(メタデータ) (2026-04-29T17:48:01Z) - Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models [47.045362895601556]
Loc3R-VLMは、モノクロビデオ入力から高度な3D理解機能を備えた2Dビジョンランゲージモデルを備えたフレームワークである。
人間の空間認識にインスパイアされたLoc3R-VLMは、グローバルなレイアウト再構築と明示的な状況モデリングという2つの共同目的に依存している。
幾何学的整合性と計量スケールの整合性を確保するために,事前学習した3次元基礎モデルから抽出した軽量カメラポーズの先行情報を活用する。
論文 参考訳(メタデータ) (2026-03-18T17:59:10Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。