論文の概要: CaMo: Camera Motion Grounded Evaluation and Training for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.20165v1
- Date: Tue, 19 May 2026 17:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.569873
- Title: CaMo: Camera Motion Grounded Evaluation and Training for Vision-Language Models
- Title(参考訳): CaMo:ビジョンランゲージモデルのためのカメラモーショングラウンド評価とトレーニング
- Authors: Hsiang-Wei Huang, Junbin Lu, Kuang-Ming Chen, Jianxu Shangguan, Cheng-Yen Yang, Jenq-Neng Hwang,
- Abstract要約: VLM(Vision-Language Models)は,空間質問応答ベンチマークにおいて高い性能を発揮する。
しかし、それが真の空間知能を反映するかどうかは不明だ。
既存の空間的VLMには基本的なカメラモーションの理解が欠如していることが示される。
本稿では,SNS 評価と直接空間質問応答精度で一貫した性能を実現するカメラモーショングラウンド付き VLM である CaMo を紹介する。
- 参考スコア(独自算出の注目度): 27.555254461854133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) achieve strong performance on spatial question answering benchmarks, yet it remains unclear whether such gains reflect genuine spatial intelligence. We show that existing spatial VLMs lack basic camera motion understanding, a key component of spatial cognition. We propose the Spatial Narrative Score (SNS), an evaluation framework that requires VLMs to generate explicit spatial narratives capturing both scene semantics and camera motion, followed by reasoning with a frozen proxy LLM. Under SNS, state-of-the-art spatial VLMs exhibit significant performance degradation despite high direct question answering accuracy. To address this gap, we introduce CaMo, a camera motion grounded VLM that achieves consistent performance across SNS evaluation and direct spatial question answering accuracy. Our results highlight the importance of explicit spatial narrative externalization for evaluating VLMs with transferable 3D spatial understanding. Our code, data, and model is available at https://github.com/hsiangwei0903/CaMo
- Abstract(参考訳): VLM(Vision-Language Models)は,空間質問応答ベンチマークにおいて高い性能を発揮するが,実際の空間知能を反映しているかどうかは不明である。
既存の空間的VLMには、空間認知の重要な構成要素である基本的なカメラモーション理解が欠如していることが示される。
本稿では,VLMがシーンセマンティクスとカメラモーションの両方をキャプチャする空間的物語を生成するのに必要な評価フレームワークであるSpatial Narrative Score(SNS)を提案する。
SNSでは, 質問応答精度が高いにもかかわらず, 最先端空間VLMは高い性能低下を示す。
このギャップに対処するために,SNS 評価と直接空間質問応答精度で一貫した性能を実現するカメラモーション接地型 VLM の CaMo を導入する。
本研究は,移動可能な3次元空間理解を用いたVLMの評価における空間的外在化の重要性を強調した。
私たちのコード、データ、モデルはhttps://github.com/hsiangwei0903/CaMoで利用可能です。
関連論文リスト
- SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks [9.23437069873238]
本稿では,空間的関係理解のためのオープンソースのコントラスト付きVLMベンチマークを提案する。
RocketScienceは完全に新しい現実世界の画像テキストペアで構成されている。
その結果,オープンソースおよびフロンティア商用VLMにおける空間的関係理解の欠如が示唆された。
論文 参考訳(メタデータ) (2025-09-02T10:32:58Z) - LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [51.774165536666864]
SIRI-Benchは視覚言語モデルの構造的空間知性を評価するためのベンチマークである。
Benchは9000の動画検索用三脚で構成されており、各問題はリアルな3Dシーンに埋め込まれている。
実験結果から,最先端のVLMはSIRI-Benchでかなり苦労し,構造的空間推論の課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-17T13:40:00Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。