論文の概要: CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2512.08135v1
- Date: Tue, 09 Dec 2025 00:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.767577
- Title: CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning
- Title(参考訳): CVP:空間推論のための中央周辺視覚誘発マルチモーダルモデル
- Authors: Zeyuan Chen, Xiang Zhang, Haiyang Xu, Jianwen Xie, Zhuowen Tu,
- Abstract要約: 空間的推論のための中央周辺視覚誘発フレームワーク(CVP)を提案する。
CVPは、中心視と周辺視という2種類の人間の視野からインスピレーションを得ている。
実験の結果,CVPは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することがわかった。
- 参考スコア(独自算出の注目度): 48.36177110428022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a central-peripheral vision-inspired framework (CVP), a simple yet effective multimodal model for spatial reasoning that draws inspiration from the two types of human visual fields -- central vision and peripheral vision. Existing approaches primarily rely on unstructured representations, such as point clouds, voxels, or patch features, and inject scene context implicitly via coordinate embeddings. However, this often results in limited spatial reasoning capabilities due to the lack of explicit, high-level structural understanding. To address this limitation, we introduce two complementary components into a Large Multimodal Model-based architecture: target-affinity token, analogous to central vision, that guides the model's attention toward query-relevant objects; and allocentric grid, akin to peripheral vision, that captures global scene context and spatial arrangements. These components work in tandem to enable structured, context-aware understanding of complex 3D environments. Experiments show that CVP achieves state-of-the-art performance across a range of 3D scene understanding benchmarks.
- Abstract(参考訳): 中心視と周辺視の2つのタイプの視覚場からインスピレーションを得た,空間的推論のためのシンプルかつ効果的なマルチモーダルモデルである,中央周辺視覚インスパイアされたフレームワーク(CVP)を提案する。
既存のアプローチは、主にポイントクラウド、ボクセル、パッチ機能などの非構造化表現に依存し、座標埋め込みを通じてシーンコンテキストを暗黙的に注入する。
しかし、これはしばしば、明示的で高レベルの構造的理解が欠如しているため、空間的推論能力に制限をもたらす。
この制限に対処するために、我々は2つの補完的コンポーネントを大規模マルチモーダルモデルベースアーキテクチャに導入する: ターゲット親和性トークン(中央視覚に類似)は、クエリ関連オブジェクトに対するモデルの注意を誘導するものであり、また、周辺視に似たアロセントリックグリッドは、グローバルなシーンコンテキストと空間配置をキャプチャする。
これらのコンポーネントは、複雑な3D環境の構造化されたコンテキスト対応の理解を可能にするために、タンデムで動作する。
実験の結果,CVPは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することがわかった。
関連論文リスト
- Pre-training Graph Neural Networks on 2D and 3D Molecular Structures by using Multi-View Conditional Information Bottleneck [8.42839603549236]
本稿では,2次元および3次元分子構造上のグラフニューラルネットワークの事前学習のためのマルチビューコンディショナル・インフォメーション・ボトルネック・フレームワークを提案する。
我々の考えは、MVIBの原則の下で、各ビューから無関係な機能を最小化しながら、共有情報を見つけることである。
ビュー間のセマンティックな一貫性と構造的整合性を高めるために,2つのビュー間のアンカーとして機能的グループやego-networksといった重要なサブストラクチャを利用する。
論文 参考訳(メタデータ) (2025-11-23T11:18:35Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。