論文の概要: PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.29281v1
- Date: Tue, 31 Mar 2026 05:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.172678
- Title: PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models
- Title(参考訳): PRISM: 身体視覚言語モデルのための多視点多機能リテールビデオデータセット
- Authors: Amirreza Rouhi, Parikshit Sakurikar, Satya Sai Reddy, Narsimha Menga, Anirudh Govil, Sri Harsha Chittajallu, Rajat Aggarwal, Anoop Namboodiri, Sashi Reddi,
- Abstract要約: 実店舗環境における視覚言語モデル(VLM)を具現化した270KのマルチビュービデオコーパスであるPRISMを提案する。
プリズムは単純な観察によって動機づけられる - 物理的なAIシステムは、空間、物理的ダイナミクス、そして世界で確実に動作するのに十分な身体的行動を理解していないため失敗する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A critical gap exists between the general-purpose visual understanding of state-of-the-art physical AI models and the specialized perceptual demands of structured real-world deployment environments. We present PRISM, a 270K-sample multi-view video supervised fine-tuning (SFT) corpus for embodied vision-language-models (VLMs) in real-world retail environments. PRISM is motivated by a simple observation - physical AI systems fail not because of poor visual recognition, but because they do not understand space, physical dynamics and embodied action well enough to operate reliably in the world. To this end, PRISM is grounded in a novel three-dimensional knowledge ontology that spans spatial knowledge, temporal and physical knowledge, and embodied action knowledge. It covers 20+ capability probes across four evaluation dimensions - Embodied Reasoning (ER), Common Sense (CS), Spatial Perception (SP), and Intuitive Physics (IP), and to our knowledge, PRISM is the first dataset to instantiate all three knowledge dimensions within a single real-world deployment domain. The corpus captures data from egocentric, exocentric and 360° viewpoints across five supermarket locations and includes open-ended, chain-of-thought, and multiple-choice supervision. At 4 fps, PRISM spans approximately 11.8M video frames and approximately 730M tokens, placing it among the largest domain-specific video SFT corpora. Fine-tuning on PRISM reduces the error rate across all 20+ probes by 66.6% over the pre-trained baseline, with significant gains in embodied action understanding where the accuracy improves by 36.4%. Our results suggest that ontology-structured, domain specific SFT can meaningfully strengthen embodied VLMs for real-world settings. The PRISM dataset and more details are available at https://dreamvu.ai/prism
- Abstract(参考訳): 最先端の物理AIモデルの汎用的な視覚的理解と、構造化された現実世界のデプロイメント環境の特殊な知覚的要求との間には、重要なギャップがある。
実店舗環境における視覚言語モデル(VLM)を具現化した270KのマルチビュービデオコーパスであるPRISMを提案する。
PRISMは単純な観察によって動機付けられている - 物理的なAIシステムは視覚的認識が貧弱なためではなく、空間、物理的ダイナミクス、そして世界で確実に動作する十分な身体的行動が理解できないために失敗する。
この目的のために、PRISMは空間的知識、時間的および物理的知識、そして行動知識を具体化する新しい3次元知識オントロジーに基礎を置いている。
Embodied Reasoning(ER)、Common Sense(CS)、Spatial Perception(SP)、Intuitive Physics(IP)の4つの評価次元にまたがる20以上の能力プローブをカバーしています。
コーパスは、エゴセントリックで、エクソセントリックで、360度の視点で、5つのスーパーマーケットでデータをキャプチャし、オープンエンド、チェーンオブソート、複数選択の監視を含む。
4fpsのPRISMは、約11.8Mのビデオフレームと約730Mのトークンにまたがっており、ドメイン固有のビデオSFTコーパスの中では最大である。
PRISMの微調整は、事前訓練されたベースライン上での20以上のプローブの誤差率を66.6%削減し、精度が36.4%向上した実施された動作理解の精度が大幅に向上した。
本研究の結果から,オントロジー構造を持つドメイン固有SFTは実世界設定のためのエンボディ型VLMを有意に強化できる可能性が示唆された。
PRISMデータセットと詳細はhttps://dreamvu.ai/prismで確認できる。
関連論文リスト
- PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning [5.308328605042682]
360パノラマ画像は、バーチャルリアリティー、自律運転、総合的なシーン理解のためのロボティクスでますます利用されている。
現在の視覚言語モデル(VLM)は、幾何学的歪みと限定的な3次元監督のため、等角射影(ERP)画像の空間的推論に苦慮している。
合成3D環境から構築した大規模VQAベンチマークであるPanoEnvを紹介する。
我々の7Bモデルは、新しい最先端性能を実現し、全体的な精度を52.93%(+3.59%)、オープンエンド精度を14.83%に改善し、構造化タスク性能を維持した。
論文 参考訳(メタデータ) (2026-02-25T15:12:17Z) - OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence [113.73007911004446]
OneVision-Encoderは、視覚構造を意味的な意味に圧縮することでビデオをエンコードする。
Codec-aligned, patch-level sparsityは基本的な原則であり、次世代のビジュアルジェネラリストのためのスケーラブルなエンジンとしてOV-Encoderを可能にする。
論文 参考訳(メタデータ) (2026-02-09T14:06:17Z) - MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence [61.065486539729875]
MMSI-Video-Bench(MMSI-Video-Bench)は、MLLMにおけるビデオベースの空間知能の完全な人為的なベンチマークである。
4段階のフレームワークである知覚、計画、予測、クロスビデオ推論を運用しており、1,278のクリップで1,106の質問を下敷きにしている。
オープンソースとプロプライエタリなMLLMを25種類評価し,AIギャップが顕著であることを明らかにした。
論文 参考訳(メタデータ) (2025-12-11T17:57:24Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Visual Spatial Tuning [98.96397681943255]
視覚空間調整(VST)は視覚言語モデル(VLM)を人間に似た視覚空間能力で培養する包括的フレームワークである。
特に,基礎的な空間知識を構築するための微調整を指導し,さらに空間推論能力を向上させるための強化学習を行う。
その結果、ビジョン・ランゲージ・アクションモデルが空間的チューニングのパラダイムによって大幅に拡張され、より物理的に接地されたAIへの道が開けることが判明した。
論文 参考訳(メタデータ) (2025-11-07T18:59:16Z) - SpaceVista: All-Scale Visual Spatial Reasoning from mm to km [43.506658643163405]
本稿は,2つの課題に対処することで,多様なシナリオをまたいだ空間的推論を促進することを目的とする。
屋内の3Dスキャンと、データセットのキュレーションのための労働集約的な手作業アノテーションに大きく依存する。
本稿では,構造化空間推論システム,スケール・アウェア・モデリング,プログレッシブ・トレーニング・パラダイムを統合した総合的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-10T17:59:46Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。