論文の概要: COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2512.04563v2
- Date: Fri, 05 Dec 2025 03:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.732157
- Title: COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence
- Title(参考訳): COOPER:空間知における協調知覚と推論の統一モデル
- Authors: Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, Zhenyu Zhang, Jiawei Sheng, Xiaodong Li, Zhenyang Li, Li Gao, Daiting Shi, Dawei Yin, Tingwen Liu,
- Abstract要約: 我々は,統合MLLMが空間知覚を高める本質的な能力を発達させ,適応的インターリーブ推論により,より強力な空間知性を実現することができるかどうかを検討する。
深度とセグメンテーションを補助モダリティとして活用し,補助モダリティ生成と適応的,インターリーブな推論能力を得るために2段階の訓練を施した統合MLLMである textbfCOOPER を提案する。
- 参考スコア(独自算出の注目度): 57.63155257058967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Spatial Reasoning is crucial for enabling Multimodal Large Language Models (MLLMs) to understand object properties and spatial relationships, yet current models still struggle with 3D-aware reasoning. Existing approaches typically enhance either perception, by augmenting RGB inputs with auxiliary modalities such as depth and segmentation, or reasoning, by training on spatial VQA datasets and applying reinforcement learning, and thus treat these two aspects in isolation. In this work, we investigate whether a unified MLLM can develop an intrinsic ability to enhance spatial perception and, through adaptive interleaved reasoning, achieve stronger spatial intelligence. We propose \textbf{COOPER}, a unified MLLM that leverages depth and segmentation as auxiliary modalities and is trained in two stages to acquire auxiliary modality generation and adaptive, interleaved reasoning capabilities. COOPER achieves an average \textbf{6.91\%} improvement in spatial reasoning while maintaining general performance. Moreover, even a variant trained only for auxiliary modality generation attains a \textbf{7.92\%} gain on distance and size estimation, suggesting that learning to generate auxiliary modalities helps internalize spatial knowledge and strengthen spatial understanding.
- Abstract(参考訳): 視覚空間推論は、オブジェクトの特性と空間的関係を理解するためにMLLM(Multimodal Large Language Models)を実現するために重要であるが、現在のモデルは3D対応の推論に苦慮している。
既存のアプローチは、通常、空間的VQAデータセットのトレーニングと強化学習の適用により、深度やセグメンテーションなどの補助的なモードでRGB入力を増強し、これら2つの側面を分離して扱うことにより、知覚を高める。
本研究では,統合MLLMが空間知覚を高める本質的な能力を発達させ,適応的インターリーブ推論により,より強力な空間知能を実現することができるかを検討する。
そこで我々は,深度とセグメンテーションを補助モダリティとして活用し,補助モダリティ生成と適応的,インターリーブな推論能力を得るために2段階の訓練を施した統合MLLMである「textbf{COOPER}」を提案する。
COOPERは、一般的な性能を維持しつつ、空間推論における平均的 \textbf{6.91\%} の改善を実現する。
さらに、補助モダリティ生成のためにのみ訓練された変種でさえ、距離と大きさの推定において \textbf{7.92\%} のゲインを得ることができ、補助モダリティを生成する学習が空間知識の内部化と空間理解の強化に役立つことを示唆している。
関連論文リスト
- Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。