論文の概要: Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts
- arxiv url: http://arxiv.org/abs/2505.12363v2
- Date: Tue, 27 May 2025 11:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.557776
- Title: Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts
- Title(参考訳): ビジュアルエキスパートの階層的融合による視覚空間認知に向けて
- Authors: Qi Feng,
- Abstract要約: 空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の質問応答対を持つ大規模認知データセットであるViCA322Kを開発した。
- 参考スコア(独自算出の注目度): 4.454997649515497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel at general vision-language tasks, visuospatial cognition - reasoning about spatial layouts, relations, and dynamics - remains a significant challenge. Existing models often lack the necessary architectural components and specialized training data for fine-grained spatial understanding. We introduce ViCA2 (Visuospatial Cognitive Assistant 2), a novel MLLM designed to enhance spatial reasoning. ViCA2 features a dual vision encoder architecture integrating SigLIP for semantics and Hiera for spatial structure, coupled with a token ratio control mechanism for efficiency. We also developed ViCA-322K, a new large-scale dataset with over 322,000 spatially grounded question-answer pairs for targeted instruction tuning. On the challenging VSI-Bench benchmark, our ViCA2-7B model achieves a state-of-the-art average score of 56.8, significantly surpassing larger open-source models (e.g., LLaVA-NeXT-Video-72B, 40.9) and leading proprietary models (Gemini-1.5 Pro, 45.4). This demonstrates the effectiveness of our approach in achieving strong visuospatial intelligence with a compact model. We release ViCA2, its codebase, and the ViCA-322K dataset to facilitate further research.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、一般的な視覚言語タスクにおいて優れているが、空間的レイアウト、関係性、ダイナミクスを推論する空間的認知は依然として重要な課題である。
既存のモデルは、細かな空間的理解に必要なアーキテクチャコンポーネントや専門的なトレーニングデータを欠いていることが多い。
空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンエンコーダアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の空間的接地型問合せ対を持つ大規模データセットであるViCA-322Kを開発した。
挑戦的なVSI-Benchベンチマークでは、我々のViCA2-7Bモデルは最先端の平均スコア56.8に達し、より大きなオープンソースモデル(例:LLaVA-NeXT-Video-72B, 40.9)と主要なプロプライエタリモデル(Gemini-1.5 Pro, 45.4)を大きく上回っている。
このことは,コンパクトモデルを用いて強力な空間的知性を実現する上で,我々のアプローチの有効性を示すものである。
我々は、さらなる研究を促進するために、ViCA2、そのコードベース、およびViCA-322Kデータセットをリリースします。
関連論文リスト
- Visuospatial Cognitive Assistant [6.963160586041051]
映像に基づく空間認識はロボット工学とAIの具体化に不可欠だが、現在の視覚言語モデル(VLM)に挑戦する
実世界の屋内ビデオから322,003対のデータセットであるViCA-322Kを紹介する。
解釈可能性について、明示的な推論連鎖を持つデータセットであるViCAThinking-2.68Kと、ViCA-7B QAThinkingを作成するための微細なViCA-7Bを提示する。
論文 参考訳(メタデータ) (2025-05-18T08:55:02Z) - Performance Analysis of Traditional VQA Models Under Limited Computational Resources [0.0]
本稿では,計算制約下での従来のモデルの性能について検討する。
我々は、双方向GRU(BidGRU)、GRU、双方向LSTM(BidLSTM)、畳み込みニューラルネットワーク(CNN)に基づくモデルを評価する。
実験結果から, 埋め込み次元300, 語彙サイズ3000のBidGRUモデルは, 大規模モデルの計算オーバーヘッドを伴わずに, 最高の総合性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-09T01:47:59Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging
Cross-Modal Attention with Large Language Models [17.488420164181463]
本稿では,自律走行車(AV)の視覚的接地に対処する高度なエンコーダデコーダフレームワークを提案する。
我々のContext-Aware Visual Grounding(CAVG)モデルは、5つのコアエンコーダ-Text, Image, Context, Cross-Modal-をマルチモーダルデコーダと統合した高度なシステムである。
論文 参考訳(メタデータ) (2023-12-06T15:14:30Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。