論文の概要: Visuospatial Cognitive Assistant
- arxiv url: http://arxiv.org/abs/2505.12312v2
- Date: Tue, 27 May 2025 10:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.556031
- Title: Visuospatial Cognitive Assistant
- Title(参考訳): Visuospatial Cognitive Assistant
- Authors: Qi Feng,
- Abstract要約: 映像に基づく空間認識はロボット工学とAIの具体化に不可欠だが、現在の視覚言語モデル(VLM)に挑戦する
実世界の屋内ビデオから322,003対のデータセットであるViCA-322Kを紹介する。
解釈可能性について、明示的な推論連鎖を持つデータセットであるViCAThinking-2.68Kと、ViCA-7B QAThinkingを作成するための微細なViCA-7Bを提示する。
- 参考スコア(独自算出の注目度): 4.454997649515497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based spatial cognition is vital for robotics and embodied AI but challenges current Vision-Language Models (VLMs). This paper makes two key contributions. First, we introduce ViCA (Visuospatial Cognitive Assistant)-322K, a diverse dataset of 322,003 QA pairs from real-world indoor videos (ARKitScenes, ScanNet, ScanNet++), offering supervision for 3D metadata-grounded queries and video-based complex reasoning. Second, we develop ViCA-7B, fine-tuned on ViCA-322K, which achieves new state-of-the-art on all eight VSI-Bench tasks, outperforming existing models, including larger ones (e.g., +26.1 on Absolute Distance). For interpretability, we present ViCA-Thinking-2.68K, a dataset with explicit reasoning chains, and fine-tune ViCA-7B to create ViCA-7B-Thinking, a model that articulates its spatial reasoning. Our work highlights the importance of targeted data and suggests paths for improved temporal-spatial modeling. We release all resources to foster research in robust visuospatial intelligence.
- Abstract(参考訳): ビデオベースの空間認識はロボット工学やAIの具体化には不可欠だが、現在のビジョンランゲージモデル(VLM)に挑戦する。
この論文は2つの重要な貢献をする。
まず、実世界の屋内ビデオ(ARKitScenes、ScanNet、ScanNet++)から322,003のQAペアの多様なデータセットであるViCA-322Kを紹介し、3Dメタデータのグラウンドドクエリとビデオベースの複雑な推論の監視を提供する。
第2に、VCA-322Kを微調整したViCA-7Bを開発し、8つのVSI-Benchタスクで新しい最先端を実現する。
解釈容易性のために、明示的な推論連鎖を持つデータセットであるViCA-Thinking-2.68Kと、その空間的推論を表現したモデルであるViCA-7B-Thinkingを作成するための微調整ViCA-7Bを提案する。
本研究は,対象データの重要性を強調し,時間空間モデルの改善のための経路を提案する。
我々は、堅牢な空間知能の研究を促進するために、すべての資源を解放する。
関連論文リスト
- Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts [6.963160586041051]
空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の質問応答対を持つ大規模認知データセットであるViCA322Kを開発した。
論文 参考訳(メタデータ) (2025-05-18T10:57:33Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-08-31T18:49:38Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding [33.68455617113953]
本稿では,23のセマンティックオブジェクトカテゴリから23kの形状のベンチマークである3D AffordanceNetデータセットについて述べる。
3つの最先端のポイントクラウドディープラーニングネットワークがすべてのタスクで評価されます。
論文 参考訳(メタデータ) (2021-03-30T14:46:27Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。